本文へ

CyberLibrarian

図書館員のコンピュータ基礎講座

検索と保存(2)

セマンティック・ウェブ

【2014-07-15更新】

インターネットに膨大な情報が溢れるようになった今日、情報を探し出すことが大変困難になってきています。Googleに代表される全文検索エンジンを絞込み検索機能などを利用して検索したとしても、大量の検索結果が出力されることがしばしばあり、なかなか効率の良い検索は望めません。
インターネットの情報は、人間が理解することを目的に書かれており、全文検索エンジンなどの機械が処理できるように考えられて書かれていません。簡単な例で言うと、「今日開業している上野にある歯医者」を検索したい場合に、「上野」と「歯医者」というキーワードを掛け合わせて検索すると、「上野歯科医」などの「上野」という名称がついた歯医者も検索されますし、「歯医者」という語には「歯科医」という別の呼び名もあるために、意図しない情報まで検索されたり、検索洩れが発生したりします。さらに、「今日開業している」かどうかを検索結果として求めることは困難で、検索結果を読んでみないと分りません。

メタデータ

このように、「上野の歯科医」と書いてあると、人間は前後の文で「上野」にあるのか「上野」という人が開業しているのかを判断できますが、コンピュータはうまく理解できません。そこで、それぞれの情報が何を意味するのかを記述した情報、つまり、メタデータを用意しておくことにより、コンピュータが意味を理解して自動処理を行えるようにし、より高度で精度の高い検索を可能にしようという考えが出てきました。例えば、上の例の場合、「職種」は「歯科医」、「住所」は「上野」、「開業日」は「月曜~金曜」というような形のデータを作成しておこうというのです。
このように、機械がメタデータを利用して意味を理解し、高度な情報検索を行うという次世代のウェブをセマンティック・ウェブ(Semantic Web)と呼びます。セマンティックとは「意味の」という意味で、ウェブの生みの親であるティム・バーナーズ・リー(Tim Berners-Lee)が2002年に提唱しました。ウェブの情報に対して、メタデータという機械可読式目録のようなデータを入力して、効率よく検索できるようにしようというのですから、セマンティック・ウェブは、ウェブ上の情報を、いわば一つの世界規模のデータベースとして使用しようとするものと言えるでしょう。

RDF

メタデータの要素としてはダブリン・コアが有名ですが、メタデータの情報の表現方法(記述する方法やその概念)としては、W3Cが推奨しているRDF外部へのリンク(アールディーエフ;Resource Description Framework)が有名です。RDFでは「資源(Resource)」「プロパティー(Property)」「値(Value)」のトリプル(Triple、別名:3つ組)と呼ばれる3つの要素に分けてデータを表現します。言語の文法で言うと、「資源」が主語、「プロパティー」が述語、「値」が目的語に当たります。「資源」はURIなどで表現され、例えば「このホームページの作者は上綱秀治である」と表現する場合は、下記のような要素で表現できます。

資源(主語) プロパティー(述語) 値(目的語)
http://www.asahi-net.or.jp/~ax2s-kmtn Created by Shuji KAMITSUNA
このホームページのURI(URL) 作者 作者の氏名

また、下記のような図で表現することも可能です。

RDFノード・アーク図

RDF: RDFに関しては、次の勧告仕様が出されています。

RDFa: RDFaに関しては、次の勧告仕様が出されています。

RDF 1.1: その後、新しいバージョンであるRDF 1.1が勧告となっています。

また、次のようなRDF 1.1に関連するノートも出されています。

SPARQL: RDFを検索するためのクエリ言語であるSPARQL(スパークル)という勧告仕様も出されています。

SPARQL 1.1: その後、新しいバージョンであるSPARQL 1.1が勧告となっています。ただし、「クエリ結果XMLフォーマット」は第2版です。

その他の関連する勧告仕様も出されています。

RSSとブログ

RDFの応用として、RSS外部へのリンク(アールエスエス;RDF Site Summary、または、Rich Site Summary、Really Simple Syndication)と呼ばれるXMLのフォーマットがあります。RSSは、ウェブサイトの見出しと要約をメタデータとして比較的簡単に記述することができ、ニュース、日記などのサイト、ブログなどで利用されています。
なお、RSSの歴史に関しては、下記のポイントを参照してください。

エージェントと推論

セマンティック・ウェブでは、人に代わってエージェント(Agent)と呼ばれるプログラムを使ってメタデータの処理を行います。エージェントが行う処理は推論(Reasoning)と呼ばれ、一般の検索のような文字列の照合(パターンマッチ)のみにとどまらず、人工知能的な処理を行います。

オントロジー

さらに高度な検索を行うためには、語彙と語彙の関係などの概念の体系を表わす必要があります。例えば、「歯科医」と「歯医者」は同義語であるとか、「歯科医」は「医者」の下位概念であるとかいった関係を定義します。このような語彙間の関係を表わすものをオントロジー外部へのリンク(Ontology)と呼びます。オントロジーとは、「存在論」を意味し、哲学の分野で用いられてきた用語です。
基本的なオントロジーを定義する技術としてはRDFスキーマ外部へのリンク(RDF Schema)があります。また、より高度な関係を定義するためのオントロジー言語として、DARPADAML外部へのリンク(ダムル;DARPA Agent Markup Language)を開発し、ヨーロッパの研究プロジェクトがOIL外部へのリンク(オイル;Ontology Inference Layer)を開発しました。その後、両者は組み合わされてDAML+OIL(ダムルプラスオイル)となり、現在ではW3Cが開発を進めているOWL(オウル;Web Ontology Language)に引き継がれています。
OWLには、全ての機能をサポートした「OWL Full」と、記述論理(Description Logic)の表現を可能にした「OWL DL」、そして、利用者が実装しやすい機能に制限した簡易版の「OWL Lite」があります。OWLは、語彙間の関係を表わすだけでなく、異なる環境で作成されたスキーマやオントロジーを関連づけることができます。例えば、ある機関がその機関の提供するコンテンツに合ったオントロジーを作成していれば、同じようなコンテンツを公開している別の機関がそのオントロジーの全体または一部を利用することなどが可能です。網羅的なオントロジーを作成することは大変な労力を必要としますが、お互いにオントロジーを参照することにより、より簡単に作成することができるようになっています。

OWL: OWLに関しては、次の勧告仕様が出されています。

次は、上記の勧告が出される前の草案の和訳です。

OWL 2: その後、新しいバージョンであるOWL 2が2009年に勧告となり、さらに2012年にそれらの第2版が勧告となっています。第2版では、軽微な誤りの修正およびOWL 2とXMLスキーマ定義言語(XSD)で定義されているデータ型との関係の明確化が行われています。

その他、FAQなどの関連文書も出されています。

セマンティック・ウェブ関連用語集

メディア資源メタデータ関連規格

SKOS

SKOS(スコス、エスコス;Simple Knowledge Organization System)は、シソーラス、タクソノミー、分類表や件名標目表などの知識組織化システムをウェブで共有、リンク付けするためのデータ・モデルです。

SKOSに関しては、勧告仕様やワーキンググループ・ノートが出されています。

セマンティック・ウェブの階層構造

セマンティック・ウェブは下記のような階層で下位階層から順に開発されています。
まず、URI、Unicodeといったデータをグローバルに扱うための技術やXML名前空間といった情報交換の技術が基礎となります。その上で、セマンティック・ウェブを実現するうえで核となるRDFを用いてメタデータを作成し、その定義をRDFスキーマによって行います。これで、機械が基本的な意味を理解できるようになりますが、より複雑な意味はオントロジーを用いて定義します。現在は、OWLの勧告仕様までが発表されています。
そして、メタデータを十分に活用できる条件が整ったところで、それらを利用してエージェントが複雑な検索(情報処理)を行えるようにするために、質問やフィルタリングなどをどう行うかというルールや理論を定義します。さらに、検索後にもエージェントが導き出した結果の信頼性を確保するために、証明と呼ばれる検索結果の根拠を提示させたり、電子署名や暗号などの技術を用いたりします。

レイヤー・ケーキ(2005年) レイヤー・ケーキ(2002年)
レイヤー・ケーキ(2005年) レイヤー・ケーキ(2002年)

ティム・バーナーズ・リーは、2005年4月に開かれた講演会で新しいレイヤー・ケーキの図を示しました。OWL等のオントロジー層の標準化が進んだことを受けたものだと思われます。

セマンティック・ウェブの階層構造
階層 解説
Trust 信用。電子署名や暗号を基に、エージェントが出した結果の信頼性を判断
Proof 証明。処理の履歴や理由など、エージェントが導き出した結果の根拠を提示
Signiture 署名
Encryption 暗号
Logic framework 論理。個々の枠組みに応じた論理を定義
SparQL RDF文書のクエリ言語
OWL オントロジー言語。概念(語彙)間の関係のより精密な定義と、異なるスキーマ間を関連づけにより相互運用性を確保
Rules ルール。問い合わせ(質問)やフィルタリングの共通基盤となる論理を定義
DLP bit of OWL/Rules OWL/RulesのDLP部分。記述論理プログラミング(Description Logic Programming)の技術を活用したOWLとルール
RDF Schema RDFスキーマ。クラス、プロパティーなどの語彙を定義し、メタデータの持つ意味を規定
RDF Core RDFコア。メタデータを記述するための仕組み
XML XMLは機械処理を可能にする記述言語
Namespaces 名前空間。タグ名や属性の区別・混在を可能にする仕組み
URI 資源をグローバルに識別するために使用
Unicode データをグローバルに表現するための文字コード

Linked Data(リンクト・データ)

セマンティック・ウェブの実現にはかなりの時間が必要と言われています。その主な理由は、オントロジーによる概念体系構築等の上位階層に位置する技術の実現が容易ではないためです。そこで、下位階層の技術のみを用いて比較的容易にセマンティックなデータを公開、共有可能とする方法として考え出されたのがLinked Data(リンクト・データ)です。Linked Dataについて、ティム・バーナーズ・リーは、「Linked Data外部へのリンク」という論文で次の4原則を示しています。

  1. 事物の名前としてURIを用いること
  2. これらの名前を参照できるように、HTTP URIを用いること
  3. URIを参照したときに、RDFSPARQLのような標準技術を用いて、有用な情報を提供できるようにすること
  4. さらに多くの事物を発見できるように、他のURIへのリンクを含むこと

この4原則の意図は、次のようなものと考えられます。
1:URIを用いることで、世の中に存在する事物を一意に識別可能にします。
2:HTTPプロトコルによりURIを参照することで、一般的なウェブ・アーキテクチャーを用いてその事物に関する情報を取得可能にします。
3:データへのアクセスに対し、RDF形式でデータを返したり、SPARQLで問い合わせすることを可能にします。
4:データ内に外部データへのリンクを含むことで、グローバルな情報の発見を可能にします。

現在の通常のウェブは、HTML等の人間が理解できる形で書かれた文書で主に構成され、文書間が単純なリンクでつながれた「文書のウェブ」(Web of Documents)と言えます。一方、Linked Dataは、機械が理解できる形で書かれたデータで構成され、データ間が関係性の定義(意味)を有するリンクでつながれた「データのウェブ」(Web of Data)です。
データを外部のシステムが利用できるようにする場合、API(エイピーアイ;Application Programming Interface)を提供することが多いですが、Linked Dataでは、データ・モデルはRDF、データ参照はHTTP URIなど、用いるべき標準技術が決まっているため、複数の情報源にまたがるグローバルな環境でのデータ利用がより容易です。

W3Cは、RDF形式の様々なオープンなデータをウェブ上で公開し、異なる情報源のデータ間にRDFのリンクを設定することにより共有データを構築し、ウェブを拡張することを目標として、2007年にLOD外部へのリンク(エルオーディー;Linking Open Data)プロジェクトを発足しています。日本では、国立国会図書館が名称典拠外部へのリンクをLinked Dataとして公開しています。

一部の関連文書を掲載しておきます。

ポイント
RSSは、UserLand社が開発したscriptingNewsというフォーマットを元に、RDFに基づいた規格としてNetscape社がRSS 0.9(RDF Site Summary)を発表したのが始まりです。その後、Netscape社は仕様を拡張してRDFに基づかないRSS 0.91(Rich Site Summary)を発表しますが、その後は開発から手を引きます。その仕様を引継ぐ形でUserLand社がバージョンアップを続け、さら仕様を拡張したRSS 2.0(Really Simple Syndication)を発表しました。一方で、RSS-DEVワーキンググループという開発者グループがRDFに基づいた仕様を新たに開発し、RSS 1.0(RDF Site Summary)として発表しました。このように、RSSにはRDFに基づいた0.9/1.0系と、基づかない0.9x/2.0系ものが存在しています。RSS 1.0はRDFに基づいた規格であるため、RDFというアイコンが使用されることがあります。
また、見出しや要約のみでなくコンテンツ自体をも配信可能にしたAtom外部へのリンク(アトム)という別仕様がIETFによって別途開発され、2005年12月にRFC(RFC 4287外部へのリンク)になりました。

1999年 2000年 2002年 2003年 2005年
Netscape RSS 0.9 RSS 0.91
UserLand RSS 0.91 RSS 0.92 …→ RSS 2.0
RSS-DEV WG RSS 1.0
IETF ATOM 0.3 ATOM 1.0
参照・参考文献
ページのトップへ
前ページへ / 次ページへ
CyberLibrarian : tips on computer for librarians, 1998-