前回の続きになります。前回の記事はこちら。今回はAI-OCRについて説明します。
そもそもAI-OCRとは何か
OCRは「Optical Character Recognition/Reader」の略で、光学文字認識と訳されます。紙文書の画像情報を機械が読み取り電子データ化する技術で、以前からこの技術はありました。これを使うと何がうれしいかというと、
・OCRを使わない場合:紙文書の情報を人間が見て認識し、その情報をPCにタイピングして社内システムなどに手入力する。
・OCRを使う場合:紙文書の情報をOCRが読み取り、電子データ化。人間はその電子データをコピー&ペーストして社内システムなどに手入力する。
という違いがあります。つまり「タイピングの手間が省ける」ということですね。事務量が少ないうちは、導入のメリットが小さいですが、紙文書の量が膨大だとかなりの効果が出てきます。
次に、OCRとAI-OCRの違いです。
AIという言葉がくっついていることからわかるように、AI-OCRはAIを使ったOCRです。これにより、今までは解読が難しかった手書き文字や非定型帳票なども高い精度で読み取ることが可能になりました。
つまり、AI-OCRはOCRの上位互換の製品と考えてもらえればよいと思います。
AI-OCRで重視したい選定基準
AI-OCR採用で重視したい選定基準は、認識率と費用、そしてセキュリティの3点です。
AI-OCRの認識率は100%にはならず、一定割合で認識誤りが発生します。誤りがあった場合、人の手作業で修正する必要が出てきますが、100%でない以上、どこに誤りがあるかわからないので「全データに対して確認作業を行ない、誤りがあったら直す」という事務がAI-OCR導入により新たに発生します。この新たな事務の作業負担が大きいと、AI-OCR導入によって事務が以前より増えてしまったという本末転倒の結果になる可能性も出てきてしまいます。
この事務負担を減らすために、できるだけ認識率の高い、つまり高精度の製品を選びましょう。その際、それぞれの事務で扱う紙書類には特徴があるため、AI-OCR製品との相性も出てきます。必ず、本格採用の前に、サンプルで何枚か試行してみて、対象事務の紙書類がちゃんと読めているか確認して下さい。
最近の製品ですと、認識率は90%以上あるのが普通です。もし間違って読んでもそれほど困らない事務があるなら「AI処理結果の全データに対して確認作業」が不要となるので、もっともAI-OCRサービスと適合性が高いと判断できます。例えば、参考情報程度でとりあえず情報を保存しておきたい、紙書類は破棄せず後から取り出し可能、といったケースが該当します。
次に費用ですが、AI-OCRだとクラウド型サービスがほとんどで、サブスクリプション契約が多いです。つまり、最初に一括してお金を払う形態と比べると、継続して支払いが発生するので、利用期間分の総支払額が投資効果に見合うかを確認しましょう。
最期にセキュリティです。AIは学習を繰り返すことで賢くなっていく、AI-OCRの場合は認識率が向上していく技術になります。そのため、一部のAI-OCR製品は、顧客から収集した紙文書をAIの学習で利用するケースがあります。このケースにおいて、紙文書のプライバシーが保持されないため、法的に問題となる可能性があります。
なお、今回ご紹介するAzure Form Recognizerは、AI学習で、顧客からの紙文書データを利用することはありません(AzureのWebサイト上で明記されています)。
AI-OCRの認識率について
AI-OCRは、対象文書を読み取る技術ですが、日本語の文章と英語の文章ではそもそも文章の構造が異なります。また、あらゆる言語で、印字された文字と手書き文字では読み取りの難易度は異なります。
従って、AI-OCRは、学習のターゲットを絞り込んでいるケースが多いです。「英語については対応している」「日本語の手書き文字をよく読める」といった風です。
AI技術はやはり米国が進んでおり、必然的に自然言語の分野も英語が中心になります。従って、英語の印字/手書き文字に対応したAI-OCRサービスがポピュラーで、逆に、日本語の手書き文字などはかなりニッチな分野になります。 紙文書で取り扱っている言語/印字・手書きの種類に応じて、適したAI-OCRサービスを探してください。
読み取る帳票の種類について
帳票は定型帳票、準定型帳票、非定型帳票の3つの種類があります。読み取る範囲(境界ボックス(Bounding Box))が明確になる分、認識率は定型帳票が最も高いです。AI-OCRサービスによって、サポートしている範囲が異なるのでご注意下さい。
定型帳票
履歴書のような枠線があって、その枠線の中に情報を書き込む形式の帳票
準定型帳票
はがきの表の面は、右側に住所、真ん中あたりに宛先名を書きますよね。このように、枠線はないが、「このあたりにこんなことを書くよね」が暗黙的に決まっている帳票や、住所・名前などのラベル名の位置が帳票によって異なるが、住所・名前のラベル名が帳票自体に記述してあって、それを元に情報が把握できる帳票です。
・・・グダグダと説明してしましたが、要するに定型帳票と非定型帳票の中間の帳票です。何か帳票形式にヒントがあって、そこからAIが識別できそう、というパターンです。
非定型帳票
特に書式が決まっていない帳票です。
AI-OCRとRPAの相性は抜群によい
RPAについてはこちらの記事でまとめています。
典型的な事務として、お客様からもらった紙文書を見て、その情報を社内システムに入力するというものがあります。これをAI-OCRとRPAで自動化すると、
- 紙文書をスキャン。画像ファイルをAI-OCRに読み込ます
- AI-OCRの読み取り結果(電子データ)を、人が目で確認
- RPAを実行して、社内システムに自動入力
といった感じになります。AI-OCRの読み取り結果の精度に依存しますが、精度が高いと大幅な事務効率化を図ることが可能です。
このように、「AI-OCRで電子データ化」→「その電子データを入力としてRPAを実行」というのが、DX推進の典型的なパターンの1つになります。
まとめ
AI-OCRの説明と選定基準、導入ケースなどについて説明しました。AI-OCRは認識率が低いと、その確認・修正事務に時間がかかり、十分な投資効果が出ません。ここが選定の際の重要ポイントになります。
次回は帳票仕分けについて説明します。