ITの発展に伴い,多くの産業分野ではデジタルソリューションによる業務効率化が推進されている。紙の取り扱い業務も同様であり,これまでは紙の帳票のシステム入力・確認に多くの労力を費やしてきた。日立の帳票認識サービスは,AIにより,多様な定型・非定型帳票の読み取りおよび読み取り結果の正しさの評価を実現するため,高精度の文字認識を行うAI-OCRエンジンを搭載可能なサービスプラットフォームであり,業務効率の向上を実現する。
本稿では,金融機関の為替業務を代行する為替データ入力作業の省力化と,今後の取り組みとして,ビジネス文書から潜在的な価値を抽出するダークデータ分析について述べる。
AI(Artificial Intelligence)やIoT(Internet of Things)などのデジタル技術の革新は,社会に大きな変革をもたらしている。日本のIT新戦略は,社会全体のデジタル化に向けた各種取り組みを加速させることで,国民の利便性向上と行政・民間業務の効率化につなげることをめざしている1)。
一方,行政機関や民間企業などの事務処理を行う多くの現場では,情報の記録・伝達に請求書などの帳票を用いている。これらの情報は,システム上で管理するためにデータ入力されるが,入力作業に人手を要している場合,AI-OCR(AI-Optical Character Recognition)により業務を効率化することができる。
本稿では,従来のOCRとAIを適用したAI-OCRの概要と,AI-OCRを活用した日立の帳票認識サービスの適用により業務効率を向上した事例を紹介する。また,今後の取り組みとして,一般のビジネス文書から潜在的な価値を発掘するダークデータ(Dark Data)分析について述べる。
OCRは,画像データから文字(漢字,数字など)を認識する技術である。一方でAI-OCRは,OCRにAIを適用した技術であり,画像データの文字認識結果を出力する点はOCRと同じであるが,処理方法にAIを適用したことでOCRの課題を解決している。
具体的には,複雑な手書き文字[乱筆文字,区切り線のないフリーフォーマットの手書き文字,罫(けい)線被り文字など],請求書などの企業ごとに様式が異なる非定型帳票,契約書などの任意様式の文書の文字認識が可能である。また,AIに学習させることで継続的に認識精度を高めることができる。さらに,RPA(Robotic Process Automation)との親和性が高く,RPAと併せることで,業務の自動化範囲を拡張したいというニーズへ対応できる。
AI-OCRの市場は徐々に拡大しているが,社会全体のデジタル化に伴いペーパーレス化が推進される中で,発展の余地と今後の位置づけについて考察する。
AI-OCRの市場規模は7億円(2018年度見込値)から32億円(2030年度予測値)への成長が予測されている2)。その主な理由は以下の二つであると考えられる。
これらの理由から,AI-OCRは将来にわたり,デジタル化の役割の一端を担っていくと考えられる。
図1|OCRからAI-OCRへの発展に伴う,帳票の取り扱い業務への適用可能領域の拡張(概念図)
OCRからAI-OCRとなり,技術面・サービス面ともに向上したため,さまざまな業務の特性に対応できるようになった。なお,AI-OCRの時代にも,既存業務の制約などからOCRによる定型帳票の読み取りに特化したニーズは引き続き存在すると考えられる。
OCRからAI-OCRへの発展に伴い,帳票の取り扱い業務への適用可能な領域が拡張した。その概念を図1に示す。AI-OCRは,ITの発展とも相まって技術面に加えてサービス面も向上した。繁忙期などの特定期間の業務や,取り扱い量が少量であり,かつ多様式な帳票を扱う業務にも,従来のOCRのように読み取り専用スキャナを準備することなく, AI-OCRは一つの提供形態で,クラウド上のサービスとして提供できる。現状ではAI-OCRの適用が困難な非構造データについては,4章で述べる。
図2|AI-OCRを活用した帳票認識サービスの概要
定型帳票に適する「定型帳票認識エンジン」と,フォーマットが決まっていない帳票(領収書など)に適する「非定型帳票認識エンジン」を具備する。最適な認識技術を適用し,高精度な認識結果と認識結果の確からしさ(確信度)を提供する。
日立は,OCRの業務適用の創成期から現在のAI-OCR,そして将来を念頭に置いて技術開発に取り組んでいる。1968年,国産初の汎用OCRである日立製H-8252形 光学文字読取機の発売3),4)から始まり,現在では深層学習(ディープラーニング)などを活用した多様なビジネス帳票をデータ化するクラウド型AI-OCRサービスを提供し,継続的に技術開発に取り組んでいる。長年蓄積したビジネス・技術ノウハウを活用することで,次の時代に向けて新しいサービスを創出し,顧客の業務上の課題解決をめざしている。
現在,日立は金融機関を中心としたペーパーレス化の取り組みとして,帳票認識サービスを提供している。帳票認識サービスは,AIを用いて高精度に文字認識を行うAI-OCRエンジンを複数搭載するサービスプラットフォームを構成し,定型帳票や非定型帳票,また活字や手書き文字,二次元コードなどに対応しており,幅広い業種のデータ入力業務に適用できる。また,日立独自のアルゴリズムにより認識の確からしさを「確信度」というスコアとして算出することで,誤認識の可能性があるデータを容易に仕分けることも可能である。これらの技術を活用して,業務アプリケーションとのスムーズな連携を可能にし,さまざまな帳票取り扱い業務の自動化を実現する。帳票認識サービスの概要を図2に示す。
図3|帳票認識サービスによる業務効率化に向けた技術的アプローチ帳票認識サービスは,さまざまな帳票事務業務の効率化を実現するため,AI-OCRなどの技術により,高い文字認識率,定型・非定型を含むさまざまな帳票の読み取り,認識結果の確認作業の業務負荷を低減する確信度を提供する。
帳票認識サービスによる業務効率化に向けたアプローチは,二つの観点に大別できる。
帳票認識サービスは,OCRの適用が技術的に困難な領域の課題を解決する。概要を図3に示す。
図4|帳票認識サービスによる業務効率化に向けたサービス的アプローチ帳票認識サービスは,取り扱う帳票の数量が少量かつ複数の帳票様式を扱う業務,特定期間に事務処理が集中する業務などの個別ニーズへ適応するため,スケーラブルに対応可能なクラウドサービスとして提供する。
帳票認識サービスは,従来のOCRが適用可能な業務であるものの,費用対効果の面で導入が困難な領域の課題も解決する。概要を図4に示す。
図5|帳票認識サービスの業務への適用事例(事務集中センターにおける業務効率化)
事務集中センターでは,帳票のデータ入力作業を複数人で手作業により実施し,入力元の帳票と目視で照合している。帳票認識サービスの確信度の高さ(高・中・低)を活用し,データ入力作業の要否を仕分け可能となる。
金融機関の三大業務の一つである為替業務では,振込,送金,口座振替など,現金をやり取りすることなく口座間の資金移動により代金支払や金銭授受を行う。支店・本店は,顧客から振込伝票,口座振替依頼書などの帳票を受け取り,事務集中センターは,帳票のデータ入力作業,入力結果の確認作業を行う。同センターでは,多くの帳票を事務処理することから職員の業務負荷や要員確保などの課題がある。そのため,為替業務を代行する業務アウトソーシングサービスが利用されることもあるが,データ入力作業および確認作業自体はなくならない。
帳票認識サービスは,事務集中センターにおけるデータ入力・確認作業の事務処理の省力化を実現し,事務コストの削減や事務基盤の確保の検討を可能とする。課題および帳票認識サービスの導入効果を図5に示す。
帳票の取り扱い業務は,金融機関のほか官公庁では住民からの各種申請書,陸運業では日々作成する帳票類の事務処理など多くの業界に存在する。帳票認識サービスは多様な帳票を読み取り,読み取り結果の確からしさを評価することで,さまざまな業界における帳票の取り扱い業務を支援することをめざしている。
AI-OCRで現状,取り扱いが困難な領域は,契約書や製品カタログなどのような任意様式のビジネス文書(非構造データ)を読み取り,分析することである。
AI-OCRが読み取り可能な非定型帳票における「非定型」の程度は,例えば請求書のように,「請求金額」の項目と値の記載位置が企業ごとに若干異なるが,記載位置にある程度の規則性があることが前提となっている。この意味で,「準」非定型と呼ばれることがある。
一般のビジネス文書のように,リレーショナルデータベースのような構造性を持たず,項目間の位置関係が不規則であり,同じ項目でも表記揺れがある文書を「非構造データ」という。例えば,ドキュメント,画像,動画,音声などは非構造データである。
関連するキーワードとして,ダークデータがある。ダークデータは,企業活動で生み出されるビジネス文書には潜在的な価値があるものの,一度生産した約80%のデータは二次利用されていない,という意味でそのように呼ばれている5),6)。ダークデータは,非構造データ,構造データを含む,広い意味で使用されている言葉であると考えられる。
ダークデータの解析事例として,複数社の有価証券報告書(以下,「有報」と記す。)から売上を抽出したい場合,同じ売上項目でも表記は企業ごとに「完成工事高」,「売上高」と異なり,単純な項目名での抽出は困難である。表記揺れがあっても,有報の表や列などの階層情報から,売上項目や時期の特徴量を作成することで抽出を可能とする。
このように新たな技術を活用することで,現状では読み取り,分析が困難な非構造データへの対応も検討している。
本稿では,AI-OCRを活用した帳票認識サービスによる業務効率化について述べた。AI-OCRは,単純な文字の読み取りにとどまらず,RPAとの連携により業務効率のさらなる向上が見込まれる。今後もAI-OCRなどの技術を活用し,ビジネス現場に変革を与えられるような業務効率化を追求していく。
帳票認識サービスに興味を持たれた読者は,日立webサイト7)を参照いただければ幸甚である。