CoffeeBreak(11)
作成日:1997/06/05

スキャナ&OCRソフト使用記

何を思ったか,キャノンのCanoScan300を衝動買いしてしまいました。
てっきりデジカメの方が先だと思ったのにね。
(ちなみに,表紙の2枚の横浜MM21地区の写真はCanoScan300ではなく,昔のエプソンのスキャナで読んだモノです)
CanoScanはSCSI接続タイプのスキャナで,本体以外にオプションで各種パソコン用接続キット(Windows用/Mac用)を購入します。

それとは別に,野暮用でOCRソフト(エーアイソフトの『読んで!!ココVer.3』)を使う必要が出てきたので,この2つを組み合わせてテストしてみました。
この組み合わせは,別に機能で選んだ訳でもコストのみで選んだ訳でもなく,単なる偶然です。
コストだけなら,OCRソフトは例えばCanoScan300のオプションであるWindows95Setの方がOCRソフトを単体で買うよりたぶん安いです(OCRソフト『e.Typist v.2.0』とカラー統合ソフト『PixeColor Player』,TWAIN対応ユーティリティ『ScanCraft 3.0CS』が入っています)。
機能的には,あまり他のOCRソフトと比べてないので...
今回は,基本的なOCRの機能があれば問題ないハズだったので,識字率が悪いと問題がありますが,それ以外は気にしてませんでした。

で,実験と言うことで,とりあえずCanoScan300のカタログを取り込んで,OCRで読んでみました。
読んで!!ココは,白黒データしか受け付けないので,白黒モードで取り込みしたもので実験しています。
その結果はいかに...

まずA4全体を取り込むため72DPIでスキャン。
スキャン画像を見ただけで話にならず。

次に部分的に読み込んでみました。
解像度は,最大まで上げてあります(取り込みの画像を見る:GIF114KB)。
ソフト的な解像度としては,700DPI以上になっているようです。

まずは,何もしないで認識させました(処理1)。

感想:ありゃ〜

次に,変換候補10個の中から正解が得られるモノを変換しました(処理2)。
2行目のCanoScan 300などは,きれいになりました。

更に,変換範囲の結合と分離を行い,調整しました(処理3)。
『き禿』→『続』とか『三原』→『源』とかが救われました。
このあたりから,打ち込んだ方が速いかなと思い始めました。

更に,変換範囲を調整して,やっとここまでになりました(処理4)。
ここまでやると,まじめに打ち込んだ方が速いです。

今回の場合,
  1. 文字のフォントが小さかった。
  2. 変形した表を1つの変換範囲として認識させた。
等が,過酷だったかなと思います。

ただ,以下の点はOCRソフトで対応して欲しいところです。
  1. 小文字のがほとんど認識できなかった。
  2. 部分的に罫線混じりで認識したため,局地的に認識できない部分が発生した(丁丁とか里里里が相当します)。

で,気分を変えて再挑戦。
今度は,ワープロからレーザープリンタに印字したモノを取り込んでみました。
A4縦のドキュメントを最高倍率(700DPI程度)で読みとると,時間のかかること。
ドキュメントとしては,MS-Wordで表や図のない平文です。
フォントはMS−Pゴシックの10.5ポイントでした(ただ,何故か文字間が10.2だったような気がします)。
で,変換!
何もしなくても,書いてあることには意味が通りそうです。
ただ,全角と半角が混じったところでは,イメージの切り分けに失敗してるところがいくつかありました。
これは,スキャナから読み込んだ文字データが,次の文字とくっついていて,判断できない場合のようです。

全体的な感想として,高い認識率が必要ならば,もとのソースに厳しい制限が必要なようです。
例えば,フォントのポイントや文字間の幅の設定に気をつけて,プロポーショナルフォントは使わない方が無難でしょう。
後は,セル間のマージが行われている表(特に縦方向)を変換する場合には,部分的に切り出しながらの変換が必要になります。
これらの前提が守れるのなら,結構使えると思います。
逆に,そうでないのなら,私は打ち込んだ方が速いなぁ...

要望としては,全体を認識してから,後から部分的な認識をさせた時に,OCRソフト上で関連させて欲しい(部分的に再認識させたところを,全体と置き換える等)。
今だと,別なソフトに貼り付けて,画像の選択した範囲を1から認識してしまう(前のデータは消されてしまう)ため,思ったように認識してくれない場合が多かったです。

認識結果のファイルへの保存で,HTML形式が選べるのはご愛敬か。
私みたいに,認識した結果をWebに貼り付けたがる人が多いとは思えないのですが。
(今回の認識結果のデータは,認識結果をそのままHTMLで保存したものです)
実は今回の中では,これが一番気に入った機能でした (^o^;

スキャナ(CanoScana)のカタログの一部をスキャンしてWeb上に置いていますが,この著作権はキャノンにあります。

戻る