[English version][Macでロシア語ホームページに]

マルチリンガルPDFからの
テキストデータ抽出

以下は、Geminiの英語ベータ版がでたころに行った簡単な実験の結果です。日本語テキストの抽出が、市販の最新版でどうなっているかは各自でご確認ください。日本語抽出が完全にできるものかどうか最新版を使ってはおりませんため不明です。お気づきの点があれば、情報をお寄せいただければ、幸いです。

(2002/2/11記)


Iceni社のPDFデータ抽出ソフト、Geminiの利用例を説明するものです。
Geminiは、事実上の文書配布、公開用標準ソフトとして有名な、Adobe社のAcrobatのプラグインです。

Acrobat 4.0Jと、Gemini1.2のベータ版を使った実験です。

Geminiを使って、PDFから、HTML、RTF、plain textでテキストデータを取り出すことが可能です。


Geminiの導入方法は省略します。


データー抽出する素材のPDFは、Macの上で、PageMakerによって、日本語とロシア語を並記したものです。

現物はここからsfpdfm.pdfをダウンロードできます。
(Netscapeでは、ファイル−>別名で保存)


該当のPDFファイルsfpdfm.pdfは、下記のようなレイアウトになっています。(下部は省略)

PDFファイルの外観

Geminiの設定


まず、どのような出力にするかを設定します。

テキストは下記の出力が選択できます。


設定の方法

1. Acrobat 4.0で、ファイル->環境設定->Geminiを選びます。

Geminiの設定1

2. すると、テキストと画像の出力種類選択用ボックスがあらわれます。

Geminiの設定2

3. テキストと、画像の出力形式の種類を、それぞれ選択します。

テキストでは、ページ毎にくぎるか、改行コードをそのまま残すか等の選択も可能です。

Geminiの設定2


Geminiの設定2

4. Acrobat 4.0で、プラグイン->Gemini Exportを選択します。

Acrobat 4.0でGemini Exportを選択

5. そこで、該当のPDFファイルの、

抽出作業は終了です

抽出の対象とする部分を選択します。

抽出対象部分の選択

抽出したファイルの置き場の選択

ファイルの置き場の選択

6. 出力データ(テキスト)は以下のようになりました。

上の方の文字がばけていますが、ここがロシア語の部分です。

文字がばけています

7. 文字を正しく設定すると、もとの状態に戻ります。

下記はMac用のエディターYooEditで文字設定を変更する例です。

編集様式の選択


ここでPryamoiを選択してみます。

文字Pryamoiの選択


これで、読める状態になります。

正しいロシア文字表示



もちろん、日本語部分も抽出されています。以下は画面の一部です。

正しい日本語表示

[English version][Macでロシア語ホームページに]