MWSE DICT HTML Version Readme
-----------------------------------------------------------------------
IMPORTANT NOTICE
THE FILES DESCRIBED BELOW ARE STRICTLY FOR SCHOLARLY REFERENCE
PURPOSES. ANY COMMERCIAL USE IS EXPLICITLY EXCLUDED. THE COPYRIGHT
REMAINS WITH THE UNIVERSITY OF COLOGNE (UNIVERSITAET ZU KOELN).
-----------------------------------------------------------------------
-----------------------------------------------------------------------
Monier-Williams Sanskrit-English Dictionary (HTML Version)
-----------------------------------------------------------------------
Version: 0.1b
Last updated: Wed Jan 28 12:58:31 NZDT 2004
Based on the IITS - Cologne Digital Sanskrit Lexicon:
http://www.uni-koeln.de/phil-fak/indologie/tamil/mwd_search.html
Converted to HTML by Richard Mahoney : r.mahoney@comnet.net.nz
Latest Version:
http://homepages.comnet.co.nz/~r-mahoney/mw_dict/mw_dict.html
-----------------------------------------------------------------------
BACKGROUND
This HTML version of the `Monier-Williams Sanskrit-English Dictionary'
stems from the `Cologne Digital Sanskrit Lexicon' (CDSL). The CDSL
itself results from a project described in the `Report on the Cologne
Sanskrit Dictionary Project'
(http://www.uni-koeln.de/phil-fak/indologie/tamil/mwreport.html).
This version is available through the generosity of Drs Thomas Malten
(Universitaet zu Koeln) and Claude Setzer (Fairfield, Iowa). Dr Malten
kindly allowed the dictionary to be made available in this form. Dr
Setzer provided a CD-ROM of the dictionary without which this version
could not have been made.
While this HTML version is freely available the financial cost of
developing a resource such as the CDSL remains significant. Those who
find this version useful might consider supporting the continued
development of the Cologne Sanskrit Dictionary Project. Contributions
should be sent to:
Cologne Sanskrit Dictionary Project
Institute of Indology and Tamil Studies (IITS)
University of Cologne
Pohligstr. 1
50969 Koeln
Germany
The CD-ROM version includes an application for searching under
Microsoft Windows. Enquiries should be directed to:
Dr Thomas Malten (Universitaet zu Koeln): th.malten@uni-koeln.de or
Dr Claude Setzer (Fairfield, Iowa): cssetzer@mum.edu
-----------------------------------------------------------------------
INSTALLATION
1) download archive:
http://homepages.comnet.co.nz/~r-mahoney/mw_dict/mw_dict_all_current.tar.gz
2) uncompress and untar archive:
on UNIX use `gunzip -qc mw_dict_all_current.tar.gz | tar xvf -'
on Microsoft Windows use instructions given at http://www.gzip.org
3) point one's WWW browser at: `directory_path_to/mw_dict/mw_dict.html'
4) search at will ;-)
N.B. While the lexicon should work with any WWW browser, the author
finds it most convenient to use a text browser called `Lynx':
http://lynx.browser.org/index.html.
-----------------------------------------------------------------------
RELEASE NOTES
----------------------
Date: Wed, 28 Jan 2004
Version: 0.1b released
a)
converted to:
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
----------------------
Date: Thu, 27 Mar 2003
Version: 0.1a_8 released
a) Harvard-Kyoto and utf-8 tables added
b) removed sundry corruption
----------------------
Date: Thu, 27 Mar 2003
Version: 0.1a_7b released
a) manual conversion of `ii' (long i) to utf-8 `0x012B'
b) removed sundry corruption
----------------------
Date: Tue, 26 Mar 2003
Version: 0.1a_7 released
a) works and authors &c. converted from Velthuis translit. to utf-8
----------------------
Date: Fri, 21 Mar 2003
Version: 0.1a_6 released
a) converted verbal `root' to utf-8 `0x221A' (SQUARE ROOT)
b) converted `*', in for e.g. `*ri-in*' to utf-8 `0x00B0' (DEGREE SIGN)
c) removed misplaced `.d' and `.t' and associated corruption
----------------------
Date: Thu, 13 Mar 2003
Version: 0.1a_5 released
a) tidied abbreviations
----------------------
Date: Tue, 11 Mar 2003
Version: 0.1a_4b released
a) removed whitespace to reduce file sizes
----------------------
Date: Mon, 10 Mar 2003
Version: 0.1a_4 released
a) increased spacing of square and rounded brackets to improve readability
b) removed misplaced stops and doubled hyphens
----------------------
Date: Wed, 29 Jan 2003
Version: 0.1a_3 released
a) PNG images added: `List of Works and Authors' (two); `Abbreviations' (one)
----------------------
Date: Sun, 26 Jan 2003
Version: 0.1a_2 released with announcements sent to:
INDOLOGY@liverpool.ac.uk and H-BUDDHISM@H-NET.MSU.EDU
a) file names altered to account for case insensitivity of MS Windows
----------------------
Date: Sat, 25 Jan 2003
Version: 0.1a released with announcements sent to:
INDOLOGY@liverpool.ac.uk and H-BUDDHISM@H-NET.MSU.EDU
-----------------------------------------------------------------------
TO DO
a) manual conversion of `sh' (retroflex s) to utf-8 `0x1E63' (long term)
-----------------------------------------------------------------------
MWSE EPWING化用 ツールキット Readme
M. Monier-Williams, Sanskrit English Dictionary EPWING化用 ツールキット
HTML Version 対応版
2005年08月28日 作者 rw
2005年08月29日 改訂2版 hishida
2005年09月04日 改訂3版 rw
2005年09月16日 改訂4版 rw
2006年08月26日 改訂5版 rw
2007年06月16日 改訂6版 rw
2008年10月21日 改訂6b版 rw
2009年07月31日 改訂6c版 rw
2009年09月18日 改訂6d版 rw
このツールキットは、
M. Monier-Williams Sanskrit-English Dictionary
DICT & HTML Downloadable Versions
http://indica-et-buddhica.org/homepages/mw_dict/
* DICT Version (DICT-text): mw_DICT_proto.zip (9631k)
* HTML Version (XHTML 1.0): mw_dict_all_current.tar.gz (8158k)
のうちの
* HTML Version (XHTML 1.0): mw_dict_all_current.tar.gz (8158k)
(HTML Version 0.1b)
を、
PerlとEBStudioを使用してEPWING化するためのものです。
Windows98SE, Activ Perl v5.8.2, EBStudio v1.67 で動作確認しております。
原ソースに存在するタグ付けの間違いやゴミタグなど(結構ありました)で、EBStudioでコンパイルエラーが出るのを取り除いてあります(但しソースデータのバージョンアップがあったりした場合、うまく動かなくなる可能性があります。その場合は使用者の責任でスクリプトを書き直して使って下さい)。
作者は、外字フォントや外字の対応関係を含めて、内容の正確さや動作を保証するものではありません。
[改訂6b版追記]
・修正内容については「修正履歴 2008/10/21 rw 改訂6b版」を参照してください。
[改訂6版追記]
・改訂6版では、WindowsXP, Activ Perl v5.8.8, EBStudio v1.69で動作確認しており
ます(特別な変更はしていませんので、前回の環境でも動作すると思います)。
・また原ソースは、Version 0.2にバージョンアップされ、ダウンロードには登録が
必要になったようです。本ツールキットは、ダウンロードに登録が必要ではなかった
HTML Version 0.1bに対するものであり、最新のVersion 0.2については動作確認しておりません。
・修正内容については「修正履歴 2007/06/16 rw 改訂6版」を参照してください。
・サンスクリット辞典の引き方・収録語の扱い方・見出し語の立て方などについては、
菅沼晃『新・サンスクリットの基礎』下 1997.平河出版社, pp.641-672
「附録2サンスクリット辞典の使用法」
に、具体例をあげて詳しく説明されていますので、同書をご参照下さい。
・なお、ローマ字テキスト化された電子辞書版には、見出し語の立て方・解説などについて原書のスキャニング等に伴うケアレスミスが少なくないため、書籍を持っていなくて、電子辞書版の内容に疑問を感じた場合は、
M.Monier-Willialns:A Sanskrit-English Dictionary を全ページスキャンしたものが、画像ファイルの形でインターネットにアップされているので、それで確認していただきたいと存じます。
URL: http://www.ibiblio.org/sripedia/ebooks/mw/
[改訂5版追記]
・改訂5版では、WindowsXP, Activ Perl v5.8.8, EBStudio v1.68bで動作確認しており
ます(特別な変更はしていませんので、前回の環境でも動作すると思います)。
・また原ソースは、Version 0.2にバージョンアップされ、ダウンロードには登録が必要になったようです。本ツールキットは、ダウンロードに登録が必要ではなかった
HTML Version 0.1bに対するものであり、最新のVersion 0.2については動作確認しておりません。
・コピー&ペーストや検索の際の利便性を向上させるため、外字をできるだけUnicodeと
対応させるようにしました(Gaiji.xml, GaijiMap.xmlの修正)。
EBWin Unicode 版だけの対応ですが、付属の外字定義ファイル(MWSEDIC.map)を使い、
alternate.txtの内容をalternate.iniに書き加え、
EBWin Unicode 版のフォントをLatin Extended Additionalをサポートしているフォント
(e.g. Tahoma)にすることで、外字が対応するUnicodeのフォントで表示複写できるよう
になります。
ただ、Tahoma を指定すると、日本語のフォントがあまり美しくないので、
他の辞書の使用に不都合が生じるようです。痛し痒しといったところです。
EBWin Unicode 版以外では(Unicode 版でも上記の措置を採らなければ)今までと変わりません。
・改訂4版でメニュー項目に取り入れた出典・作家略称一覧、記号一覧、略語一覧の項目を、辞書本体の項目として取り入れました(出典作家.html、記号.html、略語.html)。
それでは、変換手順を順番に説明していきます。
Perl がインストールされていない場合は、先に Perlのインストールを済ませておいて下さい。
(1)
まず適当な名前を付けたフォルダを作ります(ここでは仮にCドライブのルートに Mwsedictk という名前で作成することとします。サンプルとして添付した、EBStudio作業環境定義ファイル mwsedic.ebs と mwsedic-large-menu.ebs ではそのようになっています)。
このフォルダの中に、このツールキット Mwsedictk.zip と、上記のサイトからダウンロードした mw_dict_all_current.tar.gz とを、適当な解凍ツールを使って、解凍します。
(2)
mwcat.pl、mw2.pl、mwsedic.bat、GaijiMap.xml、Gaiji.xml これらをこのフォルダにいっしょに置きます 。
フォルダ Mwsedictkに移動して、mwsedic.bat を実行します。
すると、Mwse.txt(中間ファイル)とMwse.htmができているはずです。
このMwse.htmがEBStudioの入力ファイルになります。
それをEBStudioを使用してEPWING化する際には、このツールキットに添付した GaijiMap.xml、Gaiji.xml を使用してください。本文中の外字が表示できます。
(参考)(1)
[追記」サンプルとして添付した作業環境定義ファイル mwsedic.ebs と mwsedic-large-menu.ebs を使って変換した際のログを記しておきます。
[改訂5版追記]
・EBStudio フリー版では、「前方一致検索」しかできませんが、シェアウェア版では、
「後方一致検索」(e.g.接頭辞が付いた語を語根の方から検索可能)や「条件検索」
(本文中の英単語等を検索可能)等が可能です。
・EBWin2.04bに添付されているebzip圧縮・伸長ユーティリティEBShrinkを使って
圧縮すると、圧縮レベル0でも、辞書のサイズが三分の一以下になります。
mwsedic.ebs の場合
開始時刻:2008/10/22 0:08:16
[MWサンスクリット辞典]
著作権情報…done
本文…
(1)C:\Mwsedictk\Mwse.htm
(2)C:\Mwsedictk\出典作家_HKindex.html
(3)C:\Mwsedictk\記号_HKindex.html
(4)C:\Mwsedictk\略語_日本語訳付_HKindex.html
done
図版総数=(0)個
音声総数=(0)個
前方一致表記インデックス…(167850)個
後方一致表記インデックス…(167850)個
外字(8x16)…(281)個 done
外字(16x16)…(6)個 done
アンカー総数…(0)個
リンク総数…(0)個
C:\Mwsedic\MWSEDIC\DATA\HONMON ( 64010240 bytes )
終了時刻:2008/10/22 0:08:36
-------------------------
カタログを作成しました。
処理を完了しました。
mwsedic-large-menu.ebsの場合
開始時刻:2008/10/22 0:12:25
[MWサンスクリット辞典]
著作権情報…done
本文…
(1)C:\Mwsedictk\Mwse.htm
(2)C:\Mwsedictk\出典作家_HKindex.html
(3)C:\Mwsedictk\記号_HKindex.html
(4)C:\Mwsedictk\略語_日本語訳付_HKindex.html
(5)C:\Mwsedictk\hajimeni.htm
(6)C:\Mwsedictk\mw_dict-menu.htm
(7)C:\Mwsedictk\Readme-menu.htm
(8)Cd:\Mwsedictk\itiran.htm
(9)C:\Mwsedictk\mw_0030.htm
(10)C:\Mwsedictk\mw_0031.htm
(11)C:\Mwsedictk\mw_0032.htm
done
カラー図版…done
図版総数=(1)個
音声総数=(0)個
メニュー…(3)
前方一致表記インデックス…(167853)個
後方一致表記インデックス…(167853)個
条件検索インデックス…(1957134)個
外字(8x16)…(281)個 done
外字(16x16)…(6)個 done
アンカー総数…(11)個
リンク総数…(15)個
C:\Mwsedic\MWSEDIC\DATA\HONMON ( 125820928 bytes )
終了時刻:2008/10/22 0:13:37
-------------------------
カタログを作成しました。
処理を完了しました。
(参考)(2)
DDwinとEBWinでの画面をキャプチャーした画像データです。
(1) Image1-DDwin-MWSEdic.gif
(2) Image2-EBWin-MWSEdic.gif
これらはこのツールキットで変換したものです。
----------------
修正履歴
2009/09/18 rw 改訂6d版
・元データの間違いを一つだけ訂正するように、ツールキットの mw2.pl を修正しました。
2009/07/31 rw 改訂6c版
・ほとんど無意味に近いのですが、元データの間違いを一つだけ訂正するように、ツールキットの mw2.pl を修正しました。
2008/10/21 rw 改訂6b版
・元データの間違いをいくつか訂正するように mw2.pl を修正しました。また本文以外の誤りで気がついたものを若干訂正しました。
・前回も記したように、Perlスクリプトを使った置換による訂正が面倒になってきました(例えば、項目 arvAke, azakunIbhU の誤りを修正すると、</dd>が二つ生じてしまい、<DD></DD> Miss Match! エラーメッセージが出ます。これに対しては OK をクリックして続けてかまいません。もし煩わしければ、テキストエディタで arvAke と azakunIbhU を検索して ダブっている</dd>の片方を削除すればエラーはなくなります)。したがって Perlスクリプトを使った辞書本文の修正は今回で終了といたします。辞書本文以外の部分に誤りがある場合には、ツールキットの改訂をするかもしれませんが、これも一応これで一区切りといたします。ただ変換済み辞書の訂正の方はこれからも少しずつ続けて行きたいと考えております。
2007/06/16 rw 改訂6版
・元データの間違いをいくつか訂正するように mw2.pl を修正しました。ただ項目立てが間違っていたりして置換による訂正が面倒なことになってしまう場合もありますので(エディタで直接修正する方が手っとり早い)、ほとんどそのままになっています。
・原ソースの区切り記号(--->)を、「◆」でなく書籍の様に「;」(ただし全角)に変換するように mw2.pl を変更しました。「◆」は視認性はよいのですが、元データの(--->)位置は、辞書本文の区切りとしては不正確すぎると考えたからです(「◆」に変換する方はコメントアウトしてあります)。
・上記のmw2.pl修正に伴い、Mwse.htm に変更が生じます。この修正を必要としなければ、以前のMwse.htm が使えます。あるいは、エディタで 以前のMwse.htm を直接修正してもかまいません。
・改訂5版で辞書本体の項目として追加した、「略語一覧」の諸項目に、(不正確・不的確の誹りは免れませんが敢えて)日本語訳を添えてみました(略語_日本語訳付.html)。元のデータは、若干の誤りを訂正して略語.htmlとして残してあります。日本語訳を訂正するなり、元の略語.htmlをお使いいただくなりご自由にお使いください。
2006/08/26 rw 改訂5版
・外字をできるだけUnicodeと対応させるようにしました(Gaiji.xml, GaijiMap.xmlの修正)。また出典・作家略称一覧、記号一覧、略語一覧の諸項目を、辞書本体の項目として追加しました。
それ以外は変わりありません。Mwse.htmは、以前に変換してあるものがそのまま使え
ます。原ソースのバージョンアップ(HTML Version 0.1b-->Version 0.2)には対応して
おりません。
・機械的に作業し、かつ校正も十分行っていませんので誤りや不都合な点が多く有ると思います。
例えば原著では セミコロン(;) は、必ずしも語義の区分のためだけに使われてはおりません。これを視認性を良くしようと◆に機械的に置き換えているため、区切りが不自然になっています。使用される場合はこのような欠陥を理解した上でご利用ください。
またいくつか気がついた元データの誤植もありますが、それについては訂正はなされていません。
2005/09/16 rw 改訂4版
・メニュー項目に、出典・作家略称一覧、記号一覧、略語一覧を加え、
それに伴い必要となる外字を追加しました。
Mwse.htmは、以前に変換してあるものがそのまま使えます。
2005/09/04 rw 改訂3版
・辞書の解説として、mw_dict.htmlとReadmeファイルの内容を、メニュー項目として
表示するために必要なファイルを追加し、外字ファイルを差し替えました。
Mwse.htmは、以前変換してあるものがそのまま使えますので、サンプルとして添付した作業環境定義ファイル(mwsedic-menu.ebsとmwsedic-large-menu.ebs)を使ってEBStudioでコンパイルし直すだけです。
辞書の内容には変更はありません。不要な方は、今までの作業環境定義ファイル(mwsedic.ebsとmwsedic-large.ebs)をお使いください。
2005/08/29 hishida 改訂2版
・htmlのヘッダとトレイラをエディタで削除する手順を自動化するスクリプトmwcat.plを追加