類語辞書と
(シソーラス)
その応用
2014.11.5
国分芳宏著
E-mail kokubu@gengokk.co.jp
通常の辞書は用語をあいうえお順やアルファベット順に整理してありますが、類語辞書は用語の意味的な関係で整理した辞書です。同義語、関連語、反義語、広義語、狭義語などの意味的関係をたどって探します。高度な検索や、意味の分野まで立ち入った自然言語処理のための辞書です。類語辞書はシソーラス(thesaurus)とも呼ばれます。
本稿は類語辞書について学習する人のために書きました。その応用についても述べました。../internet/t.pdf
複数の観点で分類した自然言語処理用シソーラス 自然言語処理 Vol.17 No.1 pp.247を読みやすくするために書きなおしたものです。
目次
1. 用語同士の関係
1.1 関係語
1.2 同義語
1.3 関連語
1.4 反義語
2. 辞書の整理
2.1 意味的関係に注目した整理
2.2 複数の観点で分類して整理
2.3 語末一致検索
2.4 多義語
3. 用語
3.1 品詞
3.2 連語
3.4 不適切な用語
4. 応用
4.1 検索キーを選ぶとき
4.2 類似した記事を探すとき
4.3 構文解析
4.4 ネガポジの判定
4.5 用語標準化
1. 用語同士の関係
用語同士の意味的な関係は、はっきりと整理出来る場合だけではありません。意味的にほとんど重なっていて、同義語と思われるが厳密に言えば違いがあるので同義語にするか関連語にするかが悩ましい場合があります。どこまでを同義語として認めるかは、類語辞書の作成作業者同士でも食い違うことがあります。例えば「明日」と「翌日」が同義語かどうかを考えて見ると、
「明日」 「翌日」
現在の時点 ○ ○
過去の時点 × ○
厳密に見れば意味の異なる用語です。しかし言葉を探しているときには同義語と考えたほうがよいでしょう。
あまり厳密にすると関係語の数が少なくなって使いにくいものになってしまいます。類語辞書の利用目的によってどこまで厳密にするかが決まります。
物理的な側面から見た意味のほかに抽象的な側面から見た意味があります。それぞれで関係する用語が異なります。
例 「起爆剤」
物理的な側面から見た関係語 起爆薬、点火薬
抽象的な側面から見た関係語 きっかけ、推進策、引き金、トリガー
1.1 関係語
用語同士の意味関係として、下記のものを用意しました。総称して関係語と呼びます。
例「犬」に対して「ドッグ」。表記の揺れなど。 用語標準化のために、同義語グループのうち推奨する1語を推奨語としてあります。 |
|
例 「強い」に対して「弱い」 |
|
原則として属性の同じものとしました。 例 「犬」から見た「アキタイヌ」 |
|
例 「犬」から見た 「哺乳類」 |
|
何らかの意味的関係を持つ用語です。 例 「犬」と「キツネ」の関係 「料理」と「調理器具」の関係 |
|
係り受け関係を構成する用語の組です。 例 「犬」と「吠える」の関係 |
表1.用語同士の意味関係
![]() |
図1.料理とその狭義語
例えば「料理」の狭義語に「肉料理」、「日本料理」、「煮物」があります。「日本料理」と「和食」とは同義語です。
1.2 同義語
英語で1人称単数は「I」だけですが、日本語には「私」「僕」「我」「小生」「我が輩」「手前」「愚生」と数十あります。話者と相手との関係などで使い分けられています。日本語にはなぜ同じ意味の用語、同義語がこんなに多いのか考えてみましょう。(表2参照)
大和言葉 |
漢語(複合語) |
片仮名語 |
英 字 |
打ち合わせ |
会議 |
ミーティング |
|
しお |
食塩 |
ソルト |
NaCl |
|
読み出し専用メモリー |
ロム |
ROM |
表2.同義語の例
もともと日本語のなかにあった用語と同じ意味の用語が、奈良時代には中国、朝鮮から、最近は主に米国から輸入されてきました。このような組み合わせが日本語のなかにたくさんあって、これが同義語を増やしている大きな原因です。大和言葉は親しみやすさを、漢語は権威を、片仮名語は近代的な感じをあたえます。また「計算機」が「コンピューター」に、「写真機」が「カメラ」になるといったふうに、漢語が片仮名語に置き換わる傾向があります。さらに最近は「コンピューター」が「パソコン」に、「カメラ」が「デジカメ」に変わってきています。
通称
通称と正式名が両方使われています。
「首相」=「内閣総理大臣」
年号
わが国だけの問題ですが、年号が2種類あります。さらに漢数字とアラビア数字が両方使われています。
「2014年」=「平成26年」=「平成二十六年」
立場による用語の違い
使う人の立場によって同じことを違った用語で現す場合があります。例えば「税金」という用語を政府は「公的資金」という用語を使いますが、納税者は「血税」という言葉を使います。検索者は「税金」という用語で探すでしょう。このような傾向は社会科学の用語に多く見受けられます。
用語の陳腐化
用語は使い込んで身近なものになると同時に陳腐化して、代わりに新しい用語ができてきます。古い用語は使用方法が制限されるようになり、だんだんと消え去ります。特に人や職業を表す用語は変化が激しいようです。。例えば「お前」という用語は元来相手を直接指しては失礼に当たるので、相手の前を指して間接的に相手を指す非常に丁寧な用語だったそうです。。しかし長い間にすっかり陳腐化してしまって、「お前呼ばわりをする」という言い回しがあるように、今日では目上の人に対して使うと問題になります。「女中」という用語は「お手伝いさん」「ハウスキーパー」などという用語に置き換えられて現在では差別語にまでなってしまいました。
また毎回同じ言い回しばかりだと物足りなくなって、新しい言い回しを使うようになります。
「ヒットを打つ」=「バットが火を吹く」
「日本全国」=「北海道から沖縄まで」
短縮形
「特別急行」→「特急」のようなものをいいますが、「マスコミ」は「マス・コミュニケーション」の短縮形であったというように短縮形の方が4拍の新しい用語として定着してしまっているものがたくさんあります。短縮化の程度も地域によって異なります。関東よりも関西の方が積極的に短縮化するようです。
「弱冷房車」(JR東日本)
「弱冷車」 (JR西日本)
頭字語 英語の用語の先頭の文字だけを集めた用語
例 ROM Read Only Memory (アクロニム)
NATO North Atlantic Treaty Organization (イニシャリズム)
同義語のうち発音も同じものを表記の揺れ(異表記語ともいう)と言います。日本語では標準とされている表記の他に複数の「表記の揺れ」が許されています。個人により、機関により、いろいろな表記が混在しています。極端な場合には、同じ著者が書いた記事でも表記法が違うことがあります。複数の機関の記事を一度に検索しようとする場合には、考えられる揺れをすべてキーにして検索しなければなりません。表記の揺れが起こる原因をあげます。
漢字と仮名による表記の揺れ
犬、イヌ、いぬ
漢字表記の揺れ
沈殿、沈澱
「澱」の字が常用漢字でないので「殿」の字を代用したため。
超電導 JIS
超伝導 学術用語
外来語をカタカナ書きするときの揺れ
インターフェース 新聞 (1996年まではインタフェースでした。)
インタフェース JIS
インターフェイス 学術用語
インタフェイス
古い記事を扱うときは異体字も問題になります。
国語、國語
送り仮名の違いによる表記の揺れ
行う、行なう
打ち合わせ、打ち合せ、打合わせ、打合せ、打合
(内閣告示の「送り仮名の付け方」の中にも複数の表記が許容されています。)
用語標準化をするために、同義語、表記の揺れのグループのなかに推奨する用語が決めてあります。
1.2 関連語
用語の連想を助けるためにある程度の意味的な関係のある用語をいいます。意味の関係は連続的でどこまでが同義語で、どこからが関連語かがよく問題になります。またどの程度までの意味の離れた関係の用語までを関連語として認めるかも問題になります。
関連語を大きく分けると同じ広義語を持つ組み合わせと、持たない組み合わせがあります。
A.共通の広義語を持つ用語。
広義語 狭義語
食材 → 肉
食材 → 野菜
「肉」と「野菜」とは共通の広義語「食材」を持つので関連語です。
B.共通の広義語を持たないが、意味的な関係のある用語。
広義語 狭義語
食材 → 豚肉
料理 → 肉料理
「豚肉」と「肉料理」とは同じ広義語は持ちませんが、両方とも「肉」に関係があるので関連語とします。
C.意味的に似通った言葉でも品詞の異なる用語や、自動詞-他動詞の関係にある用語も関連語としました。
美しい - 綺麗 異なる品詞の例
広がる - 広げる 自動詞-他動詞の例
1.3 反義語
意味が対立する用語の関係です。反義語というと4.2で述べる意味的な距離の遠くなるように思われますが実際は近くなります。多くの場合共通の広義語を持ちます。意味的に対立する仕方にいくつかあります。
A.片方を否定すると対立する相手になる用語の関係です。。
善 ←→ 悪
B.ある中間的な点を中心にして逆の方向になる用語の関係です。。
上 ← 中 → 下
C.一つの行為を対立する立場で捕らえた用語の関係です。。
売る ←→ 買う
D.「兄」に年齢で対立する用語として「弟」があります。また性別で対立する用語として「姉」があります。どちらも反義語の関係になります。オントロジーで意味的な関係を厳密に定義するためには、この対立点も管理する必要があります。
兄 ←年齢的対立→ 弟
↑
性別的対立
↓
姉
包含する方を広義語、包含される方を狭義語といいます。自然言語処理で狭義語に適用できる関係は広義語にも適用できるようにするために広義語・狭義語の関係は、性質が同じものだけにしました。自動車・タイヤのような性質の異なる全体部分関係は関連語にしました。
例
東京都 - 新宿区 (同じ性質なので狭義語)
東京都 - 都庁 (異なる性質なので関連語)
「東京都に住む」、「新宿区に住む」は成り立ちますが、「都庁に住む」は成り立たちません。
2. 辞書の整理
利用者が膨大な語数の辞書から必要な用語を探しやすくするために整理しておく必要があります。
2.1 意味的関係に注目した整理
同義語、関連語、反義語、広義語、狭義語、反義語などの意味的関係で整理します。まず思い当たった用語から関係をたどりながら必要な用語を探します。
語数が少ないときは問題がありませんが、多くなるとひとつ分類にたくさんの用語が入ることになり辞書を引くのが難しくなります。
そこで複数の観点で分類します。身近な例で「料理」について考えてみましょう。古今東西の料理の種類は相当な数になります。材料、調理法、地域の3つの観点で分類した例を示します。
(図2参照)
料理|材料 魚料理、肉料理、野菜料理
料理|調理法 生もの、煮物、焼き物
料理|地域 和食、中華、洋食
これを図にすると、
![]() |
図2.「料理」を「調理法」「材料」「地域」の3つの観点で分類した例
ある一つの用語、例えば「刺し身」はすべての観点による分類の下に入っています。逆に「刺し身」の広義語が「生もの」「魚料理」「和食」の3つあることになります。この他に「料理」のための観点としては「対象」(病人食、独身料理)、「スタイル」(会席料理、飲茶)などが考えられます。利用者はいろいろな考え方で探すのでなるべく多くの観点で分類しておくことが必要です。
2.3 語末一致検索
日本語の複合語はほとんどの場合、意味や品詞を決定する用語が語末に、修飾する用語が前方にきます。この性質に着目して語末が同じ用語を取り出すと同じ意味の用語が集められ、狭義語を集めたのと同じような効果を持たせることができます。ノイズや検索漏れは出ますが、想定外の分類によって辞書を引くときの手助けになります。ノイズとは、意図しないのに検索されてしまった結果をいいます。
例えば「トンボ」をキーにして語末が一致で検索すると、下記の用語が取り出せますが検索漏れもでます。
狭義語 「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
ノイズ 「竹トンボ」「尻切れトンボ」「極楽トンボ」
「トンボ」という言葉を比ゆ的に用いている場合にノイズになります。
検索漏れ 「オニヤンマ」「ギンヤンマ」
同じ接尾辞のついた用語は類似した意味を持っているので、語末一致検索が有効な検索手段になります。ここにもノイズがでるものがあります。
例 接尾辞に「書」を持つ用語は書き物を指していることが多い。
案内書、説明書、請求書、辞書
ここでも「秘書」がノイズとして出ます。
2.4 多義語
同じ文字列で複数の意味を持つ用語があります。国語辞書を調べると数十の意味が記載してある用語もあります。英語は多義語が多いと言われていますが、日本語、特に大和言葉にも多義語が多数あります。検索などでノイズを発生させる大きな原因になっています。
例えば書物による木構造の類語辞典では、「時間」からたどった「月」(month)と、「天体」からたどった「月」(moon)の二つの異なった意味の用語は区別できますが、キーボドで直接「月」と指定する方法では区別ができません。
関係語
月|天体 moon 名月
月|時間 month 正月
そこで縦棒(|)の後ろに上げたような補助的な記述をつけて別語にして区別しました。
定量的に調べたわけではありませんが、よく使われる用語に多義語が多いようです。例えば「明るい」という形容詞は、主語によって次のように意味が変わり関係語も変わります。
例 説明 関係語
月が 明るい (明暗) 輝く
性質が 明るい (性格) 朗らか
将来が 明るい (雰囲気) 有望
歴史に 明るい (知識) 詳しい
外来語では英語の多義性の影響も受けています。さらに日本語ではカタカナに翻字したときにLの音をRに置き換えてしまうなどで多義語が発生しています。
例
ライト 光、照明、明るい、軽い
右、右翼手
権利
(書く)
英語の頭字語も多義語が多いので辞書に採択するときに問題になります。例えば「MC」という頭字語は手元にある辞書を調べただけで7つの置き換え語がありました。この他にもいくつかあるでしょう。
例
MC master of ceremonies 司会者
Member of Congress 連邦議会議員
Medical Corps 医療隊
Military Cross 軍事クロス
machining center 複合工作機械
marine corps 海兵隊
marginal cost 限界費用
漢字で書けば区別がつきますが平仮名表記が同じ文字列になってしまう問題があります。極端な例では「とる」という平仮名で書かれた用語は次のような意味を持ちます。
例 「とる」の多義語
カバーをとる 取り去る
写真をとる 撮る 撮影
メガホンをとる 映画作成
新人をとる 採用
お金をとる 盗る 盗む
魚をとる 捕る 漁獲
事務をとる 盗る 執務
歳をとる。 加齢
責任をとる 引責
3. 用語
市販の辞書は分からない用語を調べるためのものです。この類語辞書は自然言語処理で使うのが目的なので、よく使われる用語を中心に収集しています。
構文解析で新しい記事コーパスを解析してみて解析できなかった新しい用語も逐次登録していますが、同時に類語辞書にも登録しています。新語はネットで探しています。見つけた用語がよく使われている用語かどうかもネットで調べています。品詞分類も解析辞書と同じになっています。
構文解析の辞書では、解析実行時に結合して処理するので、複合語の要素だけを登録しておけば十分です。一方類語辞書では組み合わされた複合語も網羅する必要があるため、語数が大幅に多くなります。
3.1 品詞
自然言語処理で使うには、体言(名詞)名詞だけでなく用言(動詞、形容詞、形容動詞)や副詞も採択しておく必要があります。言語解析プログラムと組み合わせるために、用言は語幹と活用形で管理しています。
活用形も構文解析に合わせてありす。
例 動(く) 動詞 カ行5段活用
赤(い) 形容詞
3.2 連語
係り受けを構成する用語の組み合わせで管理します。構文解析で係り先を決定したり、ネガポジを決定したりするときに用います。係りの体言と受けの用言と間に挟まれる格助詞を含めた組み合わせで管理します。係り受けには体言と用言の組み合わせだけでなく、副詞と用言の組み合わせもあります。
例 花 が 咲く
お酒 を 飲む
がらがら 崩れる
きらきら 光る
目的語を含んでいる用語があります。また自動詞・他動詞の両方に対応の用語もあります。これらの関係語を連語の形で辞書に登録することになります。
例 帰宅する= 家に帰る
登校する= 学校に行く
安堵する= 気が楽になる(自動詞)
= 気を楽にする(他動詞)
他の人と同じ言い方を避けるためにわざわざ違った言い方をする例
耳に入る 知る
甲子園行きの切符を手にする 地区大会で優勝する
拍車をかける 推進する
傘の花が咲く 雨が降る
強調するために毎回決まりきった形容詞を伴って使われる慣用句
長蛇の列 列
秘伝のタレ タレ
「数の横暴」などという語はこれだけでまとめて一つの複合名詞になります。「横暴」という用語単独では形容動詞で「横暴が」という言い方は許されません。「数の横暴」とまとまったときに、「数の横暴が」のように名詞として働きます。
慣用句が一つの名詞になる例
数の横暴
言葉の綾、言葉の暴力、言葉の力
お袋の味、トカゲの尻尾
日本語では、慣用句が大きな意味的位置を占めています。
「額に汗(する)」 = 「働(く)」
「水をあけ(る)」 = 「引き離(す)」
(「水をあける」には「水」の意味はまったくなくなっています。)
慣用句は用い方によって間の助詞までが変わるものがあります
「山田は顔が広い」(叙述用法)
「顔の広い山田は」(限定用法)
いわゆる4文字熟語は実際の文書で使われることは少なくなりましたが、ネガポジの性質を持っているものが多くまだ無視はきません。
「臥薪嘗胆」
「粉骨砕身」
3.4 不適切な用語
正しい表記だけでなくよく使われるのであれば「キューピット」(Cupid:キューピッド)のように誤った表記も採択しています。実際に類語辞書を運用するためには、関係する用語として差別語を出力しないなどといった細かい配慮が必要になります。差別語は年々増える方向にある。増える差別語を次々に登録していくためにもいつも類語辞書を更新していかなければなりません。
標準でない用途は次のようなものです。。
差別語
常用漢字以外を含んでいる用語
表記の揺れ 例 インタフェース
旧地名 例 浦和市
旧機関名 例 文部省
商品名 例 宅急便
4. 応用
自然言語処理での応用例を述べます。
4.1 検索キーを選ぶとき
検索して記事が見つからなかったときや、逆に検索された記事が多すぎたときに、より適当な検索キーを選ぶために類語辞書を使います。
例えば料理の記事には「料理」という用語はほとんど使われていません。料理の記事を探すためには「和える」「煮る」「から揚げ」「ソテー」「下ごしらえ」「塩コショウ」・・・など料理に関連した用語を駆使して検索します。このような関連した用語を探すには人が検索している場で考えてもなかなか思い出せず、類語辞書の助けが必須です。
また検索できた記事数が少な過ぎるときは広義語を、多過ぎるときは適切な狭義語をそれぞれ類語辞書で探して検索します。
4.2 類似した記事を探すとき
手元にある記事と類似した記事を探すときに記事同士の類似度を調べる必要があります。そのようなときに、形態素解析して2つの記事に含まれている用語を取りだし、両方の記事に含まれている用語同士の意味的な距離を調べて推定します。
本来、用語同士の意味的な距離はアナログ的なものですが、2つの用語間の意味的な距離を次のように定義しました。
表記の揺れ 0
同義語 0
反義語 1
狭義語 1
広義語 2
関連語 4
連語 2
関係語とさらにその関係語との距離はそれぞれの距離を加算することにしました。構文解析などで、あいまいな係り先を決定するときにもこの距離を使います。また検索キーと検索した記事中の用語との間の距離を測って、検索結果を適切な順に表示することができます。
距離を測るときに多義語を区別する。
距離を測るシステムでも多義語が問題になることがあります。
例えば「お稲荷さん」には2つの意味があります。
距離
お稲荷さん - 稲荷神社 0
お稲荷さん - いなりずし 0
これまでの多義語をそれぞれの意味で区別しないシステムでは
稲荷神社 - お稲荷さん - いなりずし
0 0
との意味的な距離は0になってしまいました。筆者らのシステムでは「お稲荷さん」の2つの意味を区別して管理しているので「稲荷神社」と「いなりずし」との距離は無限大になります。
距離
稲荷神社 -いなりずし ∞
4.3 構文解析
構文解析をしていて構文構造が曖昧なときに、連語の関係を調べて確定しています。
A.係り先の決定
係り先になりうる文節が複数あるとき、連語の関係を調べて係り先を決定します。(図4参照)
車で行く場所を調べる。 ネットで行く場所を調べる。
車で─┐ ネットで─┐
行く─┐ 行く─┐ │
場所を─┐ 場所を─┤
調べる。 調べる。
図4.意味関係を用いての係り先の決定。
後者の文を解析した場合、「ネットで」という文節は連用修飾格なので、「行く」という文節と「調べる」という文節に係る可能性があります。これまでの多くの構文解析システムでは位置的に近いというだけの理由で「行く」という文節に係っていました。類語辞書を用いて「ネット」という用語と「行く」「調べる」という2つの用語との意味的な距離を調べて係り先を決定します。
意味的な距離
ネット - 行く ∞
ネット - 調べる 2 (連語の関係です)
B.並列構造の決定
例 先生とお酒を飲む。 お酒とビールを飲む。
先生と─┐ お酒と─┐
ビールを─┤ ├─┐
飲む ビールを─┘ │
飲む
図5.意味関係を用いての並列構造の決定
「お酒」と「ビール」とは意味的な距離が近いので並列にしますが、「先生」と「お酒」は遠いので並列になりません。並列にすると先生を飲んでしまうことになります。
4.4 ネガポジの判定
ネガポジとは例えば「美しい」を「ポジ」と、「汚い」を「ネガ」と定義して記事がポジかネガかを判定することで、リスク管理やリコメンデーションなどで文の評価をするときに使います。
構文解析の単語に「ネガポジ」のフラグを振っておいて、その値を調べて記事のネガポジを判定するのはこれまでも行われています。
しかし例えば下記の例では、
例 寿命 が 延びる (ポジ)
寿命 が 短い (ネガ)
「寿命」、「延びる」、「短い」など用語はそれ自体では「ネガポジ」の情報は持っていません。連語になったときに「ネガポジ」の性質が出てきます。
係り、受けのそれぞれの用語の同義語、狭義語を実行時に拡張するので、連語辞書に登録されていない係り受けにも対応します。
ビール が 冷えている。
麦酒 が 冷えている (同義語)
生ビール が 冷えている (狭義語)
4.5 用語標準化
ビッグデータの処理などで統計を取るときに、同義語、表記の揺れなど誤った用語や標準でない用語を推薦する用語に置き換えます。
インターフェース (新聞)
インタフェース (JIS)
インターフェイス (学術用語)
インタフェイス
インターフェース
米、米国、
USA、U.S.A.、
アメリカ合衆国、合衆国、
アメリカ(新聞)
アメリカ
ここでもどの用語に置き換えるかを決めるときに多義語が問題になります。例えば「米」を植物の「コメ」に置き換えてしまうことがあります。
ネット上の記事が現在のペースで増えていくと、キーワードだけの検索ではノイズが多く早晩限界がくるでしょう。人工知能も高速な進歩をとげています。今後日本語解析などを高度化していくためには意味の分野に立ち入った解析が必要になります。そのときに類語辞書が多用されるでしょう。
これから高度な自然言語処理を活用していくためにはど類語辞書も発展させていかなければなりません。
国分芳宏、岡野弘行 複数の観点で分類した自然言語処理用類語辞書 自然言語処理 Vol.17 No.1 pp.247
国分芳宏 日本文の仕組み
科学技術振興機構(1999) JICST科学技術用語類語辞書
国立国語研究所(1964) 分類語彙表
溝口理一郎 オントロジー構築入門 2006 オーム社