M. Monier-Williams, Sanskrit English Dictionary EPWING化用 ツールキット
HTML Version 対応版
                                             2005年08月28日 作者 rw 
                                             2005年08月29日 改訂2版 hishida
                                             2005年09月04日 改訂3版 rw 
                                             2005年09月16日 改訂4版 rw 
                                             2006年08月26日 改訂5版 rw 
                                             2007年06月16日 改訂6版 rw 
                                             2008年10月21日 改訂6b版 rw 
                                             2009年02月05日 改訂7b版 rw 
                                             2009年07月31日 改訂6c版 rw 
                                             2009年07月31日 改訂7b版 rw 
                                             2009年09月18日 改訂6d版 rw 
                                             2009年09月18日 改訂7c版 rw 


このツールキットは、

M. Monier-Williams Sanskrit-English Dictionary

DICT & HTML Downloadable Versions 
http://indica-et-buddhica.org/homepages/mw_dict/

* DICT Version (DICT-text): mw_DICT_proto.zip (9631k)
* HTML Version (XHTML 1.0): mw_dict_all_current.tar.gz (8158k)

のうちの
* HTML Version (XHTML 1.0): mw_dict_all_current.tar.gz (8158k)
  (HTML Version 0.1b)
を、
PerlとEBStudioを使用してEPWING化するためのものです。

Windows98SE, Activ Perl v5.8.2, EBStudio v1.67 で動作確認しております。

原ソースに存在するタグ付けの間違いやゴミタグなど(結構ありました)で、EBStudioでコ
ンパイルエラーが出るのを取り除いてあります(但しソースデータのバージョンアップが
あったりした場合、うまく動かなくなる可能性があります。その場合は使用者の責任で
スクリプトを書き直して使って下さい)。
作者は、外字フォントや外字の対応関係を含めて、内容の正確さや動作を保証するもの
ではありません。

[改訂7版追記]
・元データでは Gk. ? となっている古典ギリシア語を表示するために外字を追加しまし
たが、 すべて書籍を見て手作業で個別に入力する必要があり、かつその作業も容易でな
く、外字も暫定的に作成したため, ツールキット改訂7版の公開は見合わせます。
ただし変換済みデータは、試みに入力して見たものの一部(数個)を取り入れてあります。

・今回の変換済みデータの眼目は、見出し語のレベルを示すために、Mwse.htm を手作業
で修正したことです。

@書籍で見出語がデーヴァナーガリー文字で表示されているもの(いわば大見出し語、レ
ベル1)については、頭部に ** を付しボールド体で表示、
A書籍でローマ字のボールド体で表示され、@の大見出し語の下位見出し語ないし独立の
見出し語となっているもの(レベル2)については、頭部に * を付し普通の書体で表示、
B書籍で@ないしAを前分とする複合語としてローマ字のボールド体で追い込み見出しと
なっているもの(レベル3)は、頭部に印のない普通の書体で表示されるようにしました。

この ** や * はインデックスには登録されておりませんから、検索では入力しません。
あくまで表示上のものです。

電子化された本辞書は、見出し語がいわば平面的に表示されていますが、表示が見かけ上
多少なりとも立体化されることを期待して修正しました。
電子化された本辞書の見出し語は、ソースデータでは書籍の順に並んでおり、EPWINGビュ
ーアーで連続表示すると検索された語の前後がそのまま眺められます(ただし元データの
作成上Bの複合語の復元が間違っているものが結構ありますのでおかしな項目があります。
気がついたもので直したものもありますが、まだまだ残っております)。

 このように元のソースデータに手作業で修正を加えたため、前回記した通り、今後は
原則的には、日付を付した変換済みデータのみの公開になると思います。

[追記] それから、少しおまけをつけました。たとえば, 「外連声」,「連声法」,
「変化表」, ex, ex a a などと入力してみてください。サンディの逆引きは、
平岡昇修氏の『初心者のためのサンスクリット辞典』逆引きサンディ索引を利用させて
いただきました。「変化表」は, EPWING 化に使用した EBStudio が(あるいはEPWING 規格
自体がそうなのかもしれませんが) 残念ながら表組みが得意でないため、名詞の曲用の
一部のみでなおかつ満足できるものに仕上げることができませんでした。

[改訂6b版追記]
・修正内容については「修正履歴 2008/10/21 rw 改訂6b版」を参照してください。

[改訂6版追記]
・改訂6版では、WindowsXP, Activ Perl v5.8.8, EBStudio v1.69で動作確認しており
ます(特別な変更はしていませんので、前回の環境でも動作すると思います)。
・また原ソースは、Version 0.2にバージョンアップされ、ダウンロードには登録が
必要になったようです。本ツールキットは、ダウンロードに登録が必要ではなかった
HTML Version 0.1bに対するものであり、最新のVersion 0.2については動作確認してお
りません。

・修正内容については「修正履歴 2007/06/16 rw 改訂6版」を参照してください。

・サンスクリット辞典の引き方・収録語の扱い方・見出し語の立て方などについては、
菅沼晃『新・サンスクリットの基礎』下 1997.平河出版社, pp.641-672
「附録2サンスクリット辞典の使用法」
に、具体例をあげて詳しく説明されていますので、同書をご参照下さい。

・なお、ローマ字テキスト化された電子辞書版には、見出し語の立て方・解説などにつ
いて原書のスキャニング等に伴うケアレスミスが少なくないため、書籍を持っていなく
て、電子辞書版の内容に疑問を感じた場合は、
M.Monier-Willialns:A Sanskrit-English Dictionary を全ページスキャンしたものが、
画像ファイルの形でインターネットにアップされているので、それで確認していただき
たいと存じます。
   URL:  http://www.ibiblio.org/sripedia/ebooks/mw/


[改訂5版追記]
・改訂5版では、WindowsXP, Activ Perl v5.8.8, EBStudio v1.68bで動作確認しており
ます(特別な変更はしていませんので、前回の環境でも動作すると思います)。
・また原ソースは、Version 0.2にバージョンアップされ、ダウンロードには登録が
必要になったようです。本ツールキットは、ダウンロードに登録が必要ではなかった
HTML Version 0.1bに対するものであり、最新のVersion 0.2については動作確認しており
ません。
・コピー&ペーストや検索の際の利便性を向上させるため、外字をできるだけUnicodeと
対応させるようにしました(Gaiji.xml, GaijiMap.xmlの修正)。
EBWin Unicode 版だけの対応ですが、付属の外字定義ファイル(MWSEDIC.map)を使い、
alternate.txtの内容をalternate.iniに書き加え、
EBWin Unicode 版のフォントをLatin Extended Additionalをサポートしているフォント
(e.g. Tahoma)にすることで、外字が対応するUnicodeのフォントで表示複写できるよう
になります。ただ、Tahoma を指定すると、日本語のフォントがあまり美しくないので、
他の辞書の使用に不都合が生じるようです。痛し痒しといったところです。
EBWin Unicode 版以外では(Unicode 版でも上記の措置を採らなければ)今までと変わりま
せん。
・改訂4版でメニュー項目に取り入れた出典・作家略称一覧、記号一覧、略語一覧の項目
を、辞書本体の項目として取り入れました(出典作家.html、記号.html、略語.html)。


それでは、変換手順を順番に説明していきます。
Perl がインストールされていない場合は、先に Perlのインストールを済ませておいて
下さい。

(1)
まず適当な名前を付けたフォルダを作ります(ここでは仮にCドライブのルートに Mwsedictk
 という名前で作成することとします。サンプルとして添付した、EBStudio作業環境定義
ファイル mwsedic.ebsとmwsedic-large-menu.ebsではそのようになっています)。
このフォルダの中に、このツールキット Mwsedictk.zip と、上記のサイトからダウンロー
ドしたmw_dict_all_current.tar.gzとを、適当な解凍ツールを使って、解凍します。


(2)
mwcat.pl、mw2.pl、mwsedic.bat、GaijiMap.xml、Gaiji.xml これらをこのフォルダにいっ
しょに置きます 。
フォルダ Mwsedictkに移動して、mwsedic.bat を実行します。
すると、Mwse.txt(中間ファイル)とMwse.htmができているはずです。
このMwse.htmがEBStudioの入力ファイルになります。

それをEBStudioを使用してEPWING化する際には、このツールキットに添付した GaijiMap.xml、
Gaiji.xml を使用してください。本文中の外字が表示できます。

(参考)(1)
サンプルとして添付した作業環境定義ファイル mwsedic.ebsとmwsedic-large-menu.ebsを使っ
て変換した際のログを記しておきます。

[改訂5版追記]
・EBStudio フリー版では、「前方一致検索」しかできませんが、シェアウェア版では、
「後方一致検索」(e.g.接頭辞が付いた語を語根の方から検索可能)や「条件検索」
(本文中の英単語等を検索可能)等が可能です。
・EBWin2.04bに添付されているebzip圧縮・伸長ユーティリティEBShrinkを使って
圧縮すると、圧縮レベル0でも、辞書のサイズが三分の一以下になります。

mwsedic.ebsの場合

開始時刻:2008/10/22 0:08:16
[MWサンスクリット辞典]
  著作権情報…done
  本文…
  (1)C:\Mwsedictk\Mwse.htm
  (2)C:\Mwsedictk\出典作家_HKindex.html
  (3)C:\Mwsedictk\記号_HKindex.html
  (4)C:\Mwsedictk\略語_日本語訳付_HKindex.html
  done
  図版総数=(0)個
  音声総数=(0)個
  前方一致表記インデックス…(167850)個
  後方一致表記インデックス…(167850)個
  外字(8x16)…(281)個 done
  外字(16x16)…(6)個 done
  アンカー総数…(0)個
  リンク総数…(0)個
  C:\Mwsedic\MWSEDIC\DATA\HONMON ( 64010240 bytes )
終了時刻:2008/10/22 0:08:36
-------------------------
カタログを作成しました。
処理を完了しました。
mwsedic-large-menu.ebsの場合

開始時刻:2008/10/22 0:12:25
[MWサンスクリット辞典]
  著作権情報…done
  本文…
  (1)C:\Mwsedictk\Mwse.htm
  (2)C:\Mwsedictk\出典作家_HKindex.html
  (3)C:\Mwsedictk\記号_HKindex.html
  (4)C:\Mwsedictk\略語_日本語訳付_HKindex.html
  (5)C:\Mwsedictk\hajimeni.htm
  (6)C:\Mwsedictk\mw_dict-menu.htm
  (7)C:\Mwsedictk\Readme-menu.htm
  (8)C:\Mwsedictk\itiran.htm
  (9)C:\Mwsedictk\mw_0030.htm
  (10)C:\Mwsedictk\mw_0031.htm
  (11)C:\Mwsedictk\mw_0032.htm
  done
  カラー図版…done
  図版総数=(1)個
  音声総数=(0)個
  メニュー…(3)
  前方一致表記インデックス…(167853)個
  後方一致表記インデックス…(167853)個
  条件検索インデックス…(1957134)個
  外字(8x16)…(281)個 done
  外字(16x16)…(6)個 done
  アンカー総数…(11)個
  リンク総数…(15)個
  C:\Mwsedic\MWSEDIC\DATA\HONMON ( 125820928 bytes )
終了時刻:2008/10/22 0:13:37
-------------------------
カタログを作成しました。
処理を完了しました。

(参考)(2)
DDwinとEBWinでの画面をキャプチャーした画像データです。

(1) Image1-DDwin-MWSEdic.gif

(2) Image2-EBWin-MWSEdic.gif

これらはこのツールキットで変換したものです。

----------------
修正履歴
2009/09/18 rw 改訂7版 変換済み辞書訂正
 ・ツールキット改訂6d版の修正個所を、改訂7版 変換済み辞書に反映させました。
2009/09/18 rw ツールキット改訂6d版、改訂7c版
 ・元データの間違いを一つだけ訂正するように、ツールキットの mw2.pl を修正しました。

2009/08/06 rw 改訂7版 変換済み辞書訂正
 ・「サンディ索引」における例文の誤記を訂正。

2009/07/31 rw 改訂7版 変換済み辞書訂正
 ・ツールキット改訂6c版の修正個所を、改訂7版 変換済み辞書に反映させました。
2009/07/31 rw ツールキット改訂6c版、改訂7b版
 ・ほとんど無意味に近いのですが、元データの間違いを一つだけ訂正するように、ツールキットの mw2.pl を修正しました。

2009/07/25 rw 改訂7版 変換済み辞書訂正
 ・「サンディ索引」の追加, 外連声記述の一部補正。

2009/02/12 rw 改訂7版 変換済み辞書訂正
 ・「逆引きサンディ索引」の区切り記号を、/ から , に変更。および若干の誤記の訂正。

2009/02/05 rw 改訂7版(非公開)

2008/10/21 rw 改訂6b版
 ・元データの間違いをいくつか訂正するように mw2.pl を修正しました。また本文以外
の誤りで気がついたものを若干訂正しました。
 ・前回も記したように、Perlスクリプトを使った置換による訂正が面倒になってきまし
た(例えば、項目 arvAke, azakunIbhU の誤りを修正すると、</dd>が二つ生じてしまい、
「<DD></DD> Miss Match! 」エラーメッセージが出ます。これに対しては OK を
クリックして続けてかまいません。もし煩わしければ、テキストエディタで arvAke と 
azakunIbhU を検索して ダブっている</dd>の片方を削除すればエラーはなくなりま
す)。したがって Perlスクリプトを使った辞書本文の修正は今回で終了といたします。
辞書本文以外の部分に誤りがある場合には、ツールキットの改訂をするかもしれませんが
、これも一応これで一区切りといたします。ただ変換済み辞書の訂正の方はこれからも
少しずつ続けて行きたいと考えております。

2007/06/16 rw 改訂6版
 ・元データの間違いをいくつか訂正するように mw2.pl を修正しました。ただ項目立て
が間違っていたりして置換による訂正が面倒なことになってしまう場合もありますので(
エディタで直接修正する方が手っとり早い)、ほとんどそのままになっています。
 ・原ソースの区切り記号(---&gt;)を、「◆」でなく書籍の様に「;」(ただし全角)
に変換するように mw2.pl を変更しました。「◆」は視認性はよいのですが、元データの
(---&gt;)位置は、辞書本文の区切りとしては不正確すぎると考えたからです(「◆」
に変換する方はコメントアウトしてあります)。
 ・上記のmw2.pl修正に伴い、Mwse.htm に変更が生じます。この修正を必要としなければ、
以前のMwse.htm が使えます。あるいは、エディタで 以前のMwse.htm を直接修正してもか
まいません。
 ・改訂5版で辞書本体の項目として追加した、「略語一覧」の諸項目に、(不正確・不的確
の誹りは免れませんが敢えて)日本語訳を添えてみました(略語_日本語訳付.html)。元の
データは、若干の誤りを訂正して略語.htmlとして残してあります。日本語訳を訂正するなり、
元の略語.htmlをお使いいただくなりご自由にお使いください。

2006/08/26 rw 改訂5版
 ・外字をできるだけUnicodeと対応させるようにしました(Gaiji.xml, GaijiMap.xmlの修正)。
また出典・作家略称一覧、記号一覧、略語一覧の諸項目を、辞書本体の項目として追加しました。
それ以外は変わりありません。Mwse.htmは、以前に変換してあるものがそのまま使え
ます。原ソースのバージョンアップ(HTML Version 0.1b-->Version 0.2)には対応して
おりません。
 ・機械的に作業し、かつ校正も十分行っていませんので誤りや不都合な点が多く有ると思います。
例えば原著では セミコロン(;) は、必ずしも語義の区分のためだけに使われてはおりません。
これを視認性を良くしようと◆に機械的に置き換えているため、区切りが不自然になっています。
使用される場合はこのような欠陥を理解した上でご利用ください。
またいくつか気がついた元データの誤植もありますが、それについては訂正はなされていません。

2005/09/16	     rw 改訂4版
 ・メニュー項目に、出典・作家略称一覧、記号一覧、略語一覧を加え、
それに伴い必要となる外字を追加しました。
Mwse.htmは、以前に変換してあるものがそのまま使えます。

2005/09/04	     rw 改訂3版
 ・辞書の解説として、mw_dict.htmlとReadmeファイルの内容を、メニュー項目として
表示するために必要なファイルを追加し、それに伴い必要となる外字を追加するため、
GaijiMap.xml、Gaiji.xmlを差し替えました。Mwse.htmは、以前変換してあるものがそのまま使
えますので、サンプルとして添付した作業環境定義ファイル(mwsedic-menu.ebsとmwsedic-large-menu.ebs)
を使ってEBStudioでコンパイルし直すだけです。
辞書の内容には変更はありません。不要な方は、今までの作業環境定義ファイル
(mwsedic.ebsとmwsedic-large.ebs)をお使いください。

2005/08/29	hishida 改訂2版
 ・htmlのヘッダとトレイラをエディタで削除する手順を自動化するスクリプトmwcat.plを追加