シソーラスとその応用
2014.10.14
株式会社言語工学研究所 国分芳宏著
E-mail kokubu@gengokk.co.jp
通常の辞書は用語をあいうえお順やアルファベット順に整理してあるが、シソーラスは語義で整理した辞書である。同義語、関連語、反義語、広義語、狭義語、連語の意味的関係をたどりながら探す。高度な検索や意味の分野まで立ち入って自然言語処理をするときに必要になる辞書である。シソーラスについて学習しようとしている人のために書いた。またその応用についても述べた。
1. 用語同士の関係
用語同士の意味的な関係は、はっきりと整理出来る場合だけではない。意味的にほとんど重なっていて、同義語と思われるが厳密に言えば違いがあるので同義語にするか関連語にするかが悩ましい場合がある。どこまでを同義語として認めるかは、シソーラスの作成作業者同士でも食い違うことがある。例えば「明日」と「翌日」が同義語かどうかを考えて見ると、
「明日」 「翌日」
現在の時点 ○ ○
過去の時点 × ○
厳密に見れば意味の異なる用語であることが分かる。
あまり厳密にすると関係語の数が少なくなって使いにくいものになってしまう。シソーラスの目的によってどこまで厳密にするかが決まる。
物理的な側面から見た意味のほかに抽象的な側面から見た意味を持つ用語がある。
例 「起爆剤」
物理的な側面から見た同義語 起爆薬、点火薬
抽象的な側面から見た同義語 きっかけ、引き金、トリガー
用語同士の意味関係として、下記のものを用意した。
同義語 原則として「ドッグ」
表記の揺れも含む。
用語標準化のために、同義語グループのうち推奨する1語を
推奨語とした
反義語 例 「強い」、「弱い」
狭義語 原則として属性の同じものとした。
例 「犬」から見た 「秋田犬」
広義語 例 「犬」から見た 「哺乳類」
関連語 何らかの意味的関係を持つ用語
例 「犬」と「キツネ」の関係
「料理」と「調理器具」の関係
連語 係り受け関係を構成する用語の組である。
間に挟まれる格助詞も管理する。
表1.用語同士の意味関係
![]() |
図1.料理とその狭義語
「料理」の狭義語に「肉料理」、「日本料理」、「煮物」がある。「日本料理」と「和食」とは同義語である。
1.1 同義語
英語で1人称単数は「I」だけであるが、日本語には「私」「僕」「我」「小生」「我が輩」「手前」「愚生」と数十あり、話者と相手との関係で使い分けられている。日本語にはなぜ同じ意味の用語、同義語がこんなに多いのか考えてみる。(表2参照)
大和言葉 |
漢語(複合語) |
片仮名語 |
英 字 |
打ち合わせ |
会議 |
ミーティング |
|
しお |
食塩 |
ソルト |
NaCl |
|
読み出し専用メモリー |
ロム |
ROM |
表2.同義語の例
同じ意味の用語である。用語標準化をするためには複数の同義語のうち、どれを推奨語とするかを決めておく必要がある、
外来語
日本語のなかに奈良時代には中国、朝鮮から、最近は主に米国から輸入されて日本語の中に入ってきている用語がある。多少のニュアンスの違いはあるがすべて同義語といえる。このような組み合わせが日本語のなかにたくさんあり、これが同義語を増やしている大きな原因である。大和言葉は親しみやすさを、漢語は権威を、片仮名語は近代的な感じをあたえる。また「計算機」が「コンピューター」に、「写真機」が「カメラ」になるといったふうに、漢語が片仮名語に置き換わる傾向がある。さらに最近はまた「コンピューター」が「パソコン」に、「カメラ」が「デジカメ」に変わっている。
通称
通称と正式名が両方使われている。
「首相」=「内閣総理大臣」
年号
わが国だけの問題であるが、年号が2種類ある。さらに漢数字とアラビア数字が両方使われる。
「2014年」=「平成26年」=「平成二十六年」
立場による用語の違い
立場によって同じことを違った用語で現す場合がある。例えば「税金」という用語を政府は「公的資金」という言い方をするが、納税者は「血税」という言葉を使う。検索者は「税金」という用語で探すだろう。このような傾向は社会科学の用語に多い。
用語の陳腐化
用語は使い込んで身近なものになると同時に陳腐化して、代わりに新しい用語ができてくる。古い用語は使用方法が制限されるようになり、だんだんと消え去る。特に人や職業を表す用語は変化が激しいようである。例えば「お前」という用語は元来相手を直接指しては失礼に当たるので、相手の前を指して間接的に相手を指す非常に丁寧な用語だったそうである。しかし長い間にすっかり陳腐化してしまって、「お前呼ばわりをする」という言い回しがあるように、今日では目上の人に対して使うと問題になる。「女中」という用語は「お手伝いさん」「ハウスキーパー」などという用語に置き換えられて現在では差別語にまでなってしまった。
また毎回同じ言い回しばかりだと物足りなくなって、新しい言い回しを使うようになる。
「ヒットを打つ」=「バットが火を吹く」
「日本全国」=「北海道から沖縄まで」
短縮形
「特別急行」→「特急」のようなものをいうが、「マスコミ」は「マス・コミュニケーション」の短縮形であったというように短縮形の方が4拍の新しい用語として定着してしまっているものがたくさんある。短縮化の程度も地域によって異なる。関東よりも関西の方が積極的に短縮化するようである。
「弱冷房車」(JR東日本)
「弱冷車」 (JR西日本)
頭字語(英語の用語の先頭の文字だけを集めた用語:アクロニムacronym)
例 ROM Read Only Memory
表記の揺れ
同義語のうち発音も同じものを表記の揺れ(異表記語ともいう)と言う。日本語では標準とされている表記の他に複数の「表記の揺れ」が許されている用語がある。個人により、機関により、いろいろな表記で混乱している。極端な場合には、同じ著者が書いた記事でも表記法が違うことがある。複数の機関の記事を一度に検索しようとする場合には、考えられる揺れをすべてキーにして検索しなければならない。
漢字と仮名による表記の揺れ
犬、イヌ、いぬ
漢字表記の揺れ
沈殿、沈澱
「澱」の字が常用漢字でないので「殿」の字を代用した。
超電導 JIS
超伝導 学術用語
外来語をカタカナ書きするときの揺れ
インターフェース 新聞
1996年まではインタフェースであった。
インタフェース JIS
インターフェイス 学術用語
インタフェイス
古い記事を扱うときは異体字も問題になる。
国語、國語
送り仮名の違いによる表記の揺れ
行う、行なう
打ち合わせ、打ち合せ、打合わせ、打合せ、打合
(内閣告示の「送り仮名の付け方」の中にも複数の表記が許容されている。)
あいまいさを許して検索すれば、すべての揺れを検索できそうなものもあるが、不要な記事を検索する場合が増えてしまう。
推奨語
用語を標準化するためには、同義語、表記の揺れのグループのなかから、推奨する用語を決めておく必要がある。
1.2 関連語
用語の連想を助けるためにある程度の意味的な関係のある用語をいう。意味の関係は連続的でどこまでが同義語で、どこからが関連語かがよく問題になる。またどの程度までの意味の離れた関係の用語までを関連語として認めるかも問題になる。
関連語を大きく分けると同じ広義語を持つ用語と、異なる広義語を持つ用語がある。
A.同じ広義語の用語。
広義語 狭義語
食材 肉
野菜
「肉」と「野菜」とは共通の広義語「食材」を持つので関連語である。
B.同じ広義語を持たないが、意味的な関係のある用語。
広義語 狭義語
食材 豚肉
料理 肉料理
「豚肉」と「肉料理」とは同じ広義語は持たないが、両方とも「肉」に関係があるので関連語とする。
似通った言葉でも品詞の異なる用語や、自動詞-他動詞の関係にある用語も関係語とした。
1.3 反義語
意味が対立する用語の関係である。多くの場合共通の広義語をもつ。4.2で述べる意味的な距離は近い。意味的に対立する仕方にいくつかある。
A.片方を否定すると対立する相手になる用語の関係である。
善 ←→ 悪
B.ある中間的な点を中心にして逆の方向になる用語の関係である。
上 ← 中 → 下
C.一つの行為を対立する立場で捕らえた用語の関係である。
売る ←→ 買う
D.「兄」に年齢で対立する用語として「弟」がある。また性別で対立する用語として「姉」がある。どちらも反義語の関係になる。オントロジーで意味的な関係を厳密に定義するためには、この対立点も管理する必要がある。
兄 ←年齢的対立→ 弟
↑
性別的対立
↓
姉
1.4 広義語・狭義語
包含する方を広義語、包含される方を狭義語という。自然言語処理で狭義語に適用できる関係は広義語にも適用できるようにするために広義語・狭義語の関係は、性質が同じものだけにした。自動車・タイヤのような性質のことなる全体部分関係は関連語にした。
例
東京都 新宿区 (同じ性質なので狭義語)
東京都 都庁 (異なる性質なので関連語)
「東京都に住む」、「新宿区に住む」は成り立つが、「都庁に住む」は成り立たない。
2. 整理
利用者が必要な用語を探しやすくするために何らかの手法で整理しておく必要がある。
2.1 語義の関係に注目した整理
語義の関係に注目して整理する。
関係のある用語を同義語、関連語、反義語、広義語、狭義語などの関係で分類して表にする。この関係をたどりながら必要な用語を取り出す。
2.2 複数の観点で分類して整理
用語数が少ないときは問題が少ないが多いときは、ひとつ分類にたくさんの用語が入っていることになりシソーラスを引く人に不親切である。
そこで複数の属性に注目して複数の観点で分類する。身近な例で「料理」について考えてみる。古今東西の料理の種類は相当な数になる。そこで材料、調理法、地域の3つの観点で分類した例を示す。
(図2参照)
料理|材料 魚料理、肉料理、野菜料理
料理|調理法 生もの、煮物、焼き物
料理|地域 和食、中華、洋食
これを図にすると、
![]() |
図2.「料理」を「調理法」「材料」「地域」の3つの観点で分類した例
ある一つの用語、例えば「刺し身」はすべての観点による分類の下に入っている。逆に「刺し身」の広義語が「生もの」「魚料理」「和食」の3つあることになる。この他に「料理」のための観点としては「対象」(病人食、独身料理)「スタイル」(会席料理、飲茶)などが考えられる。いろいろな考え方で探す利用者がいるのでなるべく多くの観点で分類しておく必要がある。
2.3 語末一致に注目した整理
日本語の複合語はほとんどの場合、意味や品詞を決定する用語が語末に、修飾する用語が前方にくる。この性質に着目して語末が同じ用語を取り出すと同じ意味の用語が集められ、狭義語を集めたのと同じような効果を持たせることができる。
例えば「トンボ」をキーにして検索すると、語末が一致として下記の用語が表示される。
狭義語 「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
ノイズ 「竹トンボ」「尻切れトンボ」「極楽トンボ」
「トンボ」という言葉を比ゆ的に用いている場合にノイズになる。
漏れ 「オニヤンマ」「ギンヤンマ」
接尾辞
同じ接尾辞のついた用語は類似した意味を持つ。
例 接尾辞に「書」を持つ用語は書き物のことが多い。
案内書、説明書、請求書、辞書
ノイズとして「秘書」がある。
2.4 多義語
多義語は表す意味ごとに別の用語として扱う必要がある。
不幸にしてよく使われる用語に多義語が多い。
冊子体のシソーラスは木構造で、その構造をたどりながら探していかなければならなかった。電子化されたシソーラスはキーボードから直接構造上のどこでも指定できるので、もはや木構造である必要はない。網構造にして、複数の広義語が持てるようになっている。しかしその結果同じ文字列で複数の意味を持つ多義語が区別できない問題がでてくる。例えば木構造で検索したときには、「時間」からたどった「月」(month)と、「天体」からたどった「月」(moon)の二つの異なった意味の用語は区別できるが、直接指定する方法では区別ができなくなる。
月|天体 moon 名月
月|時間 month 正月
補助的な記述をつけて「月」を「天体」でとらえたときはmoon で「時間」でとらえたときはmonthと、別語にして区別した。
英語は多義語が多いと言われているが、日本語、特に大和言葉も多義語が多い。外国語に置き換えてみると、別の言葉になる。例えば「明るい」という用語は次のような異なる意味を持っている。
月が明るい (bright明るい)
地理に明るい (familiar詳しい)
外来語での例 英語の多義性の影響も受けている。日本語ではカタカナに翻字したときにLの音をRに置き換えてしまうなどで多義語が増えている。
ライト 光、照明、明るい、軽い
右、右翼手
権利
(書く)
英語のアクロニム(頭字語)も多義語が多い。例えば「MC」というアクロニムは手元にある辞書を調べただけで7つの置き換え語があった。
MC master of ceremonies 司会者
Member of Congress 連邦議会議員
Medical Corps 医療隊
Military Cross 軍事クロス
machining center 複合工作機械
marine corps 海兵隊
marginal cost 限界費用
シソーラスを言語処理で使うときに平仮名表記が同じになってしまう問題がある。たとえば下記の例で「とる」という平仮名で書かれた用語は次のような意味を持つ。
「とる」の同義語
カバーをとる 取り去る
写真をとる 撮影
新人をとる 採用
お金をとる 盗む
魚をとる 漁獲
事務をとる 執務
歳をとる。 加齢
3. 用語
市販の辞書は分からない用語を調べるためのものである。シソーラスは自然言語処理で使うのが目的なので、市販の辞書に登録されている用語よりも、よく使われる用語を中心に収集している。
構文解析で新しい記事コーパスを解析してみて解析できなかった新しい用語も逐次登録しているが、同時にシソーラスにも登録している。新語はネットで探している。見つけた用語がよく使われている用語かどうかもネットで調べている。
品詞分類も名詞の意味を除いて解析辞書と同じにしてある。構文解析では名詞を意味で分類しているが、シソーラスでは名詞に複数の意味を持たせられないので意味での分類はしていない。
自然言語処理用のシソーラスではほとんど全ての自立語が収集の対象になる。構文解析では、解析時に結合して処理するので、複合語の要素だけを網羅すれば十分である。一方シソーラスでは組み合わされた複合語も網羅する必要があるため、語数が多くなる。
3.1 品詞
自然言語処理で使うには、名詞だけでなく用言(動詞、形容詞)や副詞も採択しておく必要がある。言語解析プログラムと組み合わせるためには、用言は語幹と活用形で管理する必要がある。
活用形も構文解析に合わせてある。
例 動(く) 動詞 カ行5段活用
赤(い) 形容詞
3.2 連語
係り受けを構成する用語の組み合わせである。係り受けになって始めて意味的な関係ができる用語の組み合わせがある。次の例で「お腹」と「空く」、「家」と「帰る」が連語の組み合わせである。
例 お腹が空く
家に帰る
構文解析で係り先を決定したり、ポジネガを決定したりするときに用いる。係り側の格助詞を含めて管理する必要がある。
用語の中に目的語を含んでいるものがある。また独立した用語が自動詞・他動詞の両方に対応のものもある。これらは、連語の形で辞書に登録することになる。
例 帰宅する= 家に帰る
登校する= 学校に行く
安堵する= 気が楽になる(自動詞)
= 気を楽にする(他動詞)
他の人と同じ言い方を避けるためにわざわざ違った言い方をする例
耳に入る 知る
甲子園行きの切符を手にする 地区大会で優勝する
拍車をかける 推進する
傘の花が咲く 雨が降る
強調するために毎回決まりきった限定詞を伴って使われる慣用句
長蛇の列 列
秘伝のタレ タレ
「数の横暴」などという語はこれだけでまとめて一つの複合名詞と考えるべきで、「横暴」という用語単独では形容動詞で「横暴が」という言い方は許されない。「数の横暴」とまとまったときに、「数の横暴が」のように名詞として働く。
慣用句が一つの名詞になる例
数の横暴
言葉の綾、言葉の暴力、言葉の力
組み合わせの相手によって意味が異なる用語。次の例では「甘い」という用語は多義義で組み合わせによって意味が異なる。
例 リンゴが 甘い (=甘味)
検査が 甘い (=手ぬるい)
3.3 熟語・慣用句
いわゆる4文字熟語は実際の文書で使われることは少なくなったがまだ無視はきない。
「臥薪嘗胆」
「粉骨砕身」
日本語では、慣用句が大きな意味的位置を占めている。
「額に汗(する)」 = 「働(く)」
「水をあけ(る)」 = 「引き離(す)」
(「水をあける」には「水」の意味はまったくない)
慣用句は用い方によって間の助詞までが変わるものがある
「山田は顔が広い」(叙述用法)
「顔の広い山田は」(限定用法)
3.4 不適切な用語
正しい表記だけでなくよく使われるのであれば「キューピット」(Cupid)のように誤った表記も採択している。実際にシソーラスを運用するためには、関係する用語として差別語を出力しないなどといった細かい配慮が必要になる。差別語は年々増える方向にある。増える差別語を次々に登録していくためにもいつもシソーラスを更新していかなければならない。エラーのある用語と差別語は区別してある。
標準でない用途は次のようなものである。
差別語
常用漢字以外を含んでいる用語
表記の揺れ 例 インタフェース
旧地名 例 浦和市
旧機関名 例 文部省
商品名 例 宅急便
4. 応用
自然言語処理での応用例を述べる。
4.1 検索キーを探すとき
検索して記事が見つからなかったときや、逆に検索された記事が多すぎたときに、より適当な検索キーを探すためにシソーラスを使う。
例えば料理の記事には「料理」という用語はほとんど使われていない。料理の記事を探すためには「和える」「煮る」「から揚げ」「ソテー」「下ごしらえ」「塩コショウ」・・・など料理に関連した用語を駆使して検索する。このような関連した用語を探すには人が検索している場で考えてもなかなか思い出せず、シソーラスの助けが必須である。
また検索できた記事数が少な過ぎるときは広義語を、多過ぎるときは適切な狭義語をそれぞれシソーラスで探して検索する。
4.2 記事同士の意味的な距離を測る
注目している記事に意味的に近い記事を探すときに記事同士の近さを調べる必要がある。そのようなときに、形態素解析して2つの記事に含まれている用語を取りだし、両方の記事に含まれている用語の近さを調べて推定することができる。
本来、用語同士の距離はアナログ的なものである。ここでは構文解析で係り先を決めるときなどのために、2つの用語間の距離を次のように定義した。
表記の揺れ 0
同義語 1
反義語 2
広義語/狭義語 2
関連語 4
連語 2
関係語とさらにその関係語との距離はそれぞれの距離を加算することにした。狭義語のさらに狭義語との距離は2+2で4とした。構文解析などで、あいまいな係り先を決定するときにこの距離を使う。また、検索結果が多すぎたときに、検索キーと検索した記事中の用語との間の距離を測れば、検索結果を適切な順に表示できる。
距離を測るときに多義語を区別する。
距離を測るシステムでは多義語が問題になることがある。
例えば「お稲荷さん」には2つの意味がある。
距離
お稲荷さん - 稲荷神社 1
お稲荷さん - いなりずし 1
これまでの多義語をそれぞれの意味で区別しないシステムでは
稲荷神社 - お稲荷さん - いなりずし
との意味的な距離は2になってしまった。筆者らのシステムでは「お稲荷さん」の2つの意味を区別して管理しているので「稲荷神社」と「いなりずし」との距離は無限大になる。
距離
稲荷神社 -いなりずし ∞
4.3 構文解析で
構文構造が曖昧なときに、意味関係を用いて確定している。
A.係り先の決定
係り先になりうる文節が複数あるとき、意味関係を用いて係り先を決定する。(図4参照)
車で行く場所を調べる。 ネットで行く場所を調べる。
車で─┐ ネットで─┐
行く─┐ 行く─┐ │
場所を─┐ 場所を─┤
調べる。 調べる。
図4.意味関係を用いての係り先の決定。
後者の文を解析した場合、「ネットで」という文節は連用修飾格なので、「行く」という文節と「調べる」という文節に係る可能性がある。これまでの多くの構文解析システムでは位置的に近いというだけの理由で「行く」という文節に係っていた。
シソーラスを用いて「ネット」という用語と「行く」「調べる」という2つの用語とのシソーラス上での意味的な距離を計算して係り先を決定する。
距離(シソーラス上での)
ネット - 行く ∞
ネット - 調べる 2 (連語辞書に登録されている)
B.並列構造の決定
例 ビールとお酒を飲む。 先生とお酒を飲む。
ビールと <P>─┐ 物 先生と─┐ 人
お酒を─┐ 物 お酒を─┤ 物
飲む。 飲む。
<P> は並列の意味である。
図5.意味関係を用いての並列構造の決定
意味的な距離をシソーラスを用いて測ると「ビール」と「お酒」とは近いので並列になるが、「先生」と「お酒」は遠いので並列にならない。
4.4 ポシネガの判定
ポジネガとは例えば「美しい」を「ポジ」と、「汚い」を「ネガ」と定義して記事がポジかネガかを判定することで、リスク管理やリコメンデーションなどのために評価する。
構文解析の単語に「ポジネガ」のフラグを振っておいて、その値を調べて記事のポジネガを判定するのはこれまでも行われている。
しかし例えば下記の例では、
例 寿命 が 延びる (ポジ)
寿命 が 短い (ネガ)
「寿命」、「延びる」、「短い」など用語はそれ自体では「ポジネガ」の情報は持っていないが、連語になったときに「ポジネガ」の性質が出てくる。
否定があるとポジネガは逆転する。
例 ビール が 冷えている (ポジ)
ビール が 冷えすぎている(ネガ)
係り、受けのそれぞれの用語の同義語、狭義語を実行時に拡張するので、連語辞書に登録されていない係り受けにも対応できる。
ビール が 冷えている。
麦酒 が 冷えている (同義語)
生ビール が 冷えている (狭義語)
4.5 用語標準化
ビッグデータの処理などで、中に使われている用語の統計を取るときなどに、異なった同義語、表記の揺れなど誤った用語や標準でない用語が使われていたら、推薦する用語に置き換える。
インターフェース (新聞)
インタフェース (JIS)
インターフェイス (学術用語)
インタフェイス
インターフェース
米、米国、
USA、U.S.A.、
アメリカ合衆国、合衆国、
アメリカ(新聞)
アメリカ
ここでもどの用語に置き換えるかを決めるときに多義語が問題になる。例えば「米」を植物の「コメ」に置き換えてしまうことがある。
おわりに
ネット上の記事が現在のペースで増えていくと、キーワードだけの検索ではノイズが多く早晩限界がくると思われる。ノイズを減らすためにも自然文検索のニーズを高まっている。今後日本語解析などを高度化していくためには意味の分野に立ち入らざるを得ないだろう。そのときにシソーラスが多用されるだろう。
固有名詞は一部を除いて採択していないが、これから高度な自然言語処理を活用していくためには固有名詞も扱わなければならないだろう。
このシソーラスはエクシングに事業譲渡されております。ご利用をご検討のかたは下記までお問い合わせください。
参考文献
国分芳宏、岡野弘行 複数の観点で分類した自然言語処理用シソーラス 自然言語処理 Vol.17 No.1 pp.247
溝口理一郎 オントロジー構築入門 2006 オーム社
科学技術振興機構(1999) JICST科学技術用語シソーラス
国立国語研究所(1964) 分類語彙表