はじめに
皆さんはこういった状況に陥ってしまったことはありませんか?
PDFデータが編集できないため、修正したいけれども出来ない。
または書類関係や手書き資料などをまとめてデータ化したいけども、そもそも入力するのが大変で挫折してしまったなど。
特にPC上で編集できない資料をデータ化するには、労力もさることながら作業も莫大でとても大変です。
その労力を軽減してくれるのがOCRという画期的な機能なんです。
OCRを直訳すると光学文字認識となり、やや小難しい漢字の羅列になります。
わかりやすく言い換えると、PDFのデータや書類の電子化したものをコンピュータなどに取り込む技術の事をOCRと呼びます。
OCR技術はコピー機・複合機のオプション機能として、今最も注目を集めている機能の一つなのです。
今回はそのOCR技術とは何なのかということだけではなく、このような技術が生まれた経緯を含め解説していきます。
それではまずはじめにOCRとは何の略称なのということについて話していきたいと思います。
OCRとは何の略称でしょうか?
OCRは「Optical Character Recognition」の頭文字をとったものです。
機能としてはスキャナやカメラなどを利用して、印刷が既に済んでいる文字や手書きの文字をイメージ化し、イメージ化されたデータをテキストデータに変換することで、コンピュータでの利用が可能となります。
そしてこの技術については、実は結構前から開発されていたのです。
1950年代には開発されていたOCR技術
聞きなれない言葉なので一見新しい技術かと考えられがちですが、初めてOCR技術が表舞台に登場したのは1951年です。
OCRの歴史はかなり古くからあり、少しずつ進化を遂げながら今日に至ります。
元々はアメリカ人のDavid Hammond Shepard氏が「GISMO」というシステムを開発しながら余暇の時間に開発したシステムでした。
因みにDavid氏は発明家であり暗号解析の専門家としても活躍しています。
そんな彼が開発したOCRですが、当初はある理由から日本で広がるのは難しいのではと言われていたのです。
日本もその技術の波に乗ることが出来た
日本で広がるのは難しいのではと思われた理由は、日本語で扱うにはOCRはとても難易度が高い技術だったからです。
というのもアメリカをはじめ英語圏では、使用するアルファベットが26文字、数字10文字の合計36文字と日本語より断然文字数が少ないです。
そのためOCR技術との相性が抜群に良かったのですが、日本語は2010年時点で2136文字の常用漢字、さらに平仮名・片仮名・アルファベット・数字など格段に文字数が多い。
その結果、OCR技術を日本語で利用するのは非常に難易度が高い技術であると言わざるをえなかったのです。
そうはいってもOCRは素晴らしい技術なので、日本で何とか普及することが出来ないかといった研究が始まりました。
日本のOCR誕生は郵便番号の読み取りから始まった
日本で初めてOCR機能が実用されたのは、1968年郵便番号制度での導入がはじまりだといわれています。
郵便番号の読み取り後、自動的に仕分ける機械が生産され普及したのが日本での初めてのOCR導入でした。
その後1970年代に入り片仮名も読み取れるようになり、1980年以降には漢字も読み取れるOCRが出現しました。
そんな流れでここまで何とかたどり着いたのです。
現在のOCR技術について
現在活用されているOCRは技術が飛躍的に向上し、文字認識機能だけではなくどの部分に何が書かれているのかまで読み取れるようになってきました。
こういった背景により、今では色々な書式の帳票が読み取れるようになっています。
また昨今AI技術もOCRの発展に貢献してくれています。
その結果、今では新聞の段組みなど複雑な配置の文字列でも、正確に並べる技術まで進化しているのです。
それでも尚、まだまだOCR技術は様々なところにまで拡がっています。
今もなおOCRの活用は拡がっている
今日でも紙ベースの書類は無くならず、むしろ活用されている機会は多いと言えます。
そういった紙ベースの情報を改めてデータベース化しようとした時、問題となるのが一つ一つのデータ容量になります。
さて、突然ですがここで一つ質問をさせて下さい。
データベース化した場合、イメージデータとして保存するのとテキストデータとして保存するのではどちらがより容量を節約できるでしょうか。
答えはイメージデータに比べテキストデータの方が遥かにデータ量は少なく容量の節約になります。
ただ、そう簡単な話でもありません。
イメージデータ化するのは紙ベースの書類をカメラやスキャナを使うだけなので比較的簡単な作業なのですが、テキストデータ化はするための入力作業は膨大な手間がかかります。
そういった入力の手間を大幅に削減させる事が出来るのがOCR技術です。
そんな便利なOCR技術ですが、ここからは具体的な活用事例をご説明していきます。
OCRの活用事例紹介
具体的な活用事例を4つほどご紹介します。
帳票処理した情報を手作業を介さず会計ソフトへの入力を自動化させる
ソフトを利用し作業の効率化を図っているにも関わらず、テキスト化されたデータを会計ソフトに入力するといった作業は手作業で行われてきました。
その手作業を無くす為にRPAという自動化技術を併用することで、OCRで読み取ったデータを自動的に会計ソフトに入力することが可能となったのです。
こういった自動化の恩恵を受けている人はとても多いのではないでしょうか。
文書をテキストデータ化しデータベース化する
書籍や新聞といった印刷された媒体をOCRで読み取りテキスト化することで、キーワード検索が可能となります。
イメージデータでは保存したデータからキーワード検索するためには、更にタグ付けなどが必要となり手間でした。
しかしながらテキストデータ化することで簡単にキーワード検索できるようになります。
テキストデータ化することでそれに加えて、市販のソフトや表計算ソフトで再編集ができるようになり利用用途が更に拡がっていったのです。
分析や加工の作業効率向上
紙ベースの記載データをOCRでテキスト化することで、情報の分析だけじゃなく加工も簡単にできるようになります。
本来は手作業で表計算ソフトに入力する必要がありましたが、OCRで読み込むことで自動化するだけでなく転記ミスも防げるのです。
その分余計な手間が省け、データ分析やグラフ加工といった作業に時間を充てる事ができるようになります。
物理的な保管スペースが減る
紙ベースの文書でまず困るのは保管場所です。
テキストデータ化することで、段ボール1個の紙ベース文書がたったの数メガバイトのデータに圧縮され、物理的な保管スペースが不要となります。
つまり過去の紙ベースの文書をOCR技術でテキストデータ化すれば、従来の書類保存のためのスペースを有効活用できるようになります。
終わりに
ここまでOCRという技術はとても便利な機能であるという話をしてきましたがいかがだったでしょうか?
コピー機・複合機にOCR技術があると、業務フローの簡略化に繋がります。
特に煩わしい手入力、それによる入力ミスが減る事で、結果従業員への負担も減ることでしょう。
そのためもしも可能ならばOCR機能があるコピー機や複合機を検討してみてはいかがでしょうか。
ここまで最後まで読んで頂きありがとうございました。