全文検索システム Namazu での利用を前提とした私家版の KAKASI 用辞書(kanwadict)です。
標準辞書に、分かち書きでの利用を前提として単語を追加しています。
Namazu では辞書に登録した言葉を用いて、分かち書きを行い、個々の言葉をインデックスに登録します。
辞書に言葉をたくさん追加しさえすれば、分かち書きの性能があがるというものではありません。
例えば、「全文検索システム」という語を辞書に登録したとします。
すると、「全文検索システム」という語が現れた場合に、インデックスには「全文検索システム」として記録されます。
検索文字列に「全文検索システム」と指定した場合には見つかります。
しかし、「全文」で検索した場合には見つかりません。
これは「全文」という語ではインデックスに登録されないためです。
(前方一致検索を使って、全文*」で検索すれば見つかります。)
「全文検索システム」という語でヒットしたいか、あるいは「全文」で検索した場合にもヒットしたいかによって、登録するか否かを判断する必要があります。
辞書に登録する語は、これ以上分解すると意味をなさない最小単位のものを登録するのが良いでしょう。
このため、フリー辞書をそのまま追加すると、かえって分かち書きの性能が落ちることもあります。
人名の場合は苗字と名前を辞書に追加すれば良いでしょう。
人名を検索する場合、フルネームあるいは苗字、名前で検索するでしょう。
(苗字の一部、名前の一部で検索することはまずないでしょう。)
苗字、名前が辞書に登録してあれば、いずれの場合でもヒットするはずです。
ただし、残念ながら全てのケースでうまく分かち書きされるというわけではありません。
登録されている言葉が複雑に影響を及ぼすため、理想的な分かち書きを行うことは難しいのです。
これらを登録することで、標準辞書に含まれるこれらの文字から始まる単語が有効になります。
ファイルを解凍して、古い辞書と差し替えてください。(XXXXXXXX は日付)
$ tar xvzf kanwadict-XXXXXXXX.tar.gz |
下記フォームより、辞書に登録したい言葉を募集しています。
登録していただいた言葉は、内容を検討の上採用させていただきます。
Free Software Foundation が公表した GNU General Public License version 2 あるいはそれ以降の各バージョンの中からいずれかを選択し、そのバージョンが定める条項に従って本プログラムを再頒布または変更することができます。
kanwadict は有用とは思いますが、頒布にあたっては、市場性及び特定目的適合性についての暗黙の保証を含めて、いかなる保証も行ないません。
詳細については GNU General Public License をお読みください。