マルチリンガルPDFからの
テキストデータ抽出

以下は、Geminiの英語ベータ版がでたころに行った簡単な実験の結果です。日本語テキストの抽出が、市販の最新版でどうなっているかは各自でご確認ください。日本語抽出が完全にできるものかどうか最新版を使ってはおりませんため不明です。お気づきの点があれば、情報をお寄せいただければ、幸いです。

（2002/2/11記）

Iceni社のPDFデータ抽出ソフト、Geminiの利用例を説明するものです。
Geminiは、事実上の文書配布、公開用標準ソフトとして有名な、Adobe社のAcrobatのプラグインです。

Acrobat 4.0Jと、Gemini1.2のベータ版を使った実験です。

Geminiを使って、PDFから、HTML、RTF、plain textでテキストデータを取り出すことが可能です。

Geminiの導入方法は省略します。

データー抽出する素材のPDFは、Macの上で、PageMakerによって、日本語とロシア語を並記したものです。

現物はここからsfpdfm.pdfをダウンロードできます。
（Netscapeでは、ファイル－>別名で保存）

該当のPDFファイルsfpdfm.pdfは、下記のようなレイアウトになっています。（下部は省略）

Geminiの設定

まず、どのような出力にするかを設定します。

テキストは下記の出力が選択できます。

1. Acrobat 4.0で、ファイル->環境設定->Geminiを選びます。

2. すると、テキストと画像の出力種類選択用ボックスがあらわれます。

3. テキストと、画像の出力形式の種類を、それぞれ選択します。

テキストでは、ページ毎にくぎるか、改行コードをそのまま残すか等の選択も可能です。

4. Acrobat 4.0で、プラグイン->Gemini Exportを選択します。

5. そこで、該当のPDFファイルの、

抽出作業は終了です

抽出の対象とする部分を選択します。

抽出したファイルの置き場の選択

6. 出力データ（テキスト）は以下のようになりました。

上の方の文字がばけていますが、ここがロシア語の部分です。

7. 文字を正しく設定すると、もとの状態に戻ります。

下記はMac用のエディターYooEditで文字設定を変更する例です。

ここでPryamoiを選択してみます。

これで、読める状態になります。

もちろん、日本語部分も抽出されています。以下は画面の一部です。