何を思ったか,キャノンのCanoScan300を衝動買いしてしまいました。
てっきりデジカメの方が先だと思ったのにね。
(ちなみに,表紙の2枚の横浜MM21地区の写真はCanoScan300ではなく,昔のエプソンのスキャナで読んだモノです)
CanoScanはSCSI接続タイプのスキャナで,本体以外にオプションで各種パソコン用接続キット(Windows用/Mac用)を購入します。
それとは別に,野暮用でOCRソフト(エーアイソフトの『読んで!!ココVer.3』)を使う必要が出てきたので,この2つを組み合わせてテストしてみました。
この組み合わせは,別に機能で選んだ訳でもコストのみで選んだ訳でもなく,単なる偶然です。
コストだけなら,OCRソフトは例えばCanoScan300のオプションであるWindows95Setの方がOCRソフトを単体で買うよりたぶん安いです(OCRソフト『e.Typist v.2.0』とカラー統合ソフト『PixeColor Player』,TWAIN対応ユーティリティ『ScanCraft 3.0CS』が入っています)。
機能的には,あまり他のOCRソフトと比べてないので...
今回は,基本的なOCRの機能があれば問題ないハズだったので,識字率が悪いと問題がありますが,それ以外は気にしてませんでした。
全体的な感想として,高い認識率が必要ならば,もとのソースに厳しい制限が必要なようです。
例えば,フォントのポイントや文字間の幅の設定に気をつけて,プロポーショナルフォントは使わない方が無難でしょう。
後は,セル間のマージが行われている表(特に縦方向)を変換する場合には,部分的に切り出しながらの変換が必要になります。
これらの前提が守れるのなら,結構使えると思います。
逆に,そうでないのなら,私は打ち込んだ方が速いなぁ...
要望としては,全体を認識してから,後から部分的な認識をさせた時に,OCRソフト上で関連させて欲しい(部分的に再認識させたところを,全体と置き換える等)。
今だと,別なソフトに貼り付けて,画像の選択した範囲を1から認識してしまう(前のデータは消されてしまう)ため,思ったように認識してくれない場合が多かったです。
認識結果のファイルへの保存で,HTML形式が選べるのはご愛敬か。
私みたいに,認識した結果をWebに貼り付けたがる人が多いとは思えないのですが。
(今回の認識結果のデータは,認識結果をそのままHTMLで保存したものです)
実は今回の中では,これが一番気に入った機能でした (^o^;