|
検索と保存(2)
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 資源(主語) | プロパティー(述語) | 値(目的語) |
|---|---|---|
| http://www.asahi-net.or.jp/~ax2s-kmtn | Created by | Shuji KAMITSUNA |
| このホームページのURI(URL) | 作者 | 作者の氏名 |
また、下記のような図で表現することも可能です。
RDFに関しては、次の6つの勧告仕様が出されています。
また、XHTMLをはじめとする様々なXML言語からRDFを抽出する仕組みを定義したGRDDL(グリドゥル)という勧告仕様も出されています。
さらに、RDFを検索するためのクエリ言語であるSPARQL(スパークル)という勧告仕様も出されています。
RDFの応用として、RSS
(アールエスエス;RDF Site Summary、または、Rich Site Summary、Really Simple Syndication)と呼ばれるXMLのフォーマットが広がりをみせています。RSSは、ウェブサイトの見出しと要約をメタデータとして比較的簡単に記述することができ、ニュース、日記などのサイト、そして、最近急増しているブログ(Blog、Weblog)と呼ばれる日々のニュースにリンクし、コメントをつけて日記形式で紹介するサイトで利用されています。
なお、RSSの歴史に関しては、下記のポイントを参照してください。
セマンティック・ウェブでは、人に代わってエージェント(Agent)と呼ばれるプログラムを使ってメタデータの処理を行います。エージェントが行う処理は推論(Reasoning)と呼ばれ、一般の検索のような文字列の照合(パターンマッチ)のみにとどまらず、人工知能的な処理を行います。
さらに高度な検索を行うためには、語彙と語彙の関係などの概念の体系を表す必要があります。例えば、「歯科医」と「歯医者」は同義語であるとか、「歯科医」は「医者」の下位概念であるとかいった関係を定義します。このような語彙間の関係を表すものをオントロジー
(Ontology)と呼びます。オントロジーとは、「存在論」を意味し、哲学の分野で用いられてきた用語です。
基本的なオントロジーを定義する技術としてはRDFスキーマ
(RDF Schema)があります。また、より高度な関係を定義するためのオントロジー言語として、DARPAがDAML
(ダムル;DARPA Agent Markup Language)を開発し、ヨーロッパの研究プロジェクトがOIL
(オイル;Ontology Inference Layer)を開発しました。その後、両者は組み合わされてDAML+OIL(ダムルプラスオイル)となり、現在ではW3Cが開発を進めているOWL(オウル;Web Ontology Language)に引き継がれています。
OWLには、全ての機能をサポートした「OWL Full」と、記述論理(Description Logic)の表現を可能にした「OWL DL」、そして、利用者が実装しやすい機能に制限した簡易版の「OWL Lite」があります。OWLは、語彙間の関係を表すだけでなく、異なる環境で作成されたスキーマやオントロジーを関連づけることができます。例えば、ある機関がその機関の提供するコンテンツに合ったオントロジーを作成していれば、同じようなコンテンツを公開している別の機関がそのオントロジーの全体または一部を利用することなどが可能です。網羅的なオントロジーを作成することは大変な労力を必要としますが、お互いにオントロジーを参照することにより、より簡単に作成することができるようになっています。
OWLに関しては、次の6つの勧告仕様が出されています。
次は、上記の勧告が出される前の草案の和訳です。
その後、バージョンアップ版であるOWL 2が勧告となっています。
その他、FAQなどの関連文書も出されています。
SKOS(スコス、エスコス;Simple Knowledge Organization System)は、シソーラス、タクソノミー、分類表や件名標目表などの知識組織化システムをウェブで共有、リンク付けするためのデータ・モデルです。
SKOSに関しては、勧告仕様やワーキンググループ・ノートが出されています。
セマンティック・ウェブは下記のような階層で下位階層から順に開発されています。
まず、URI、ユニコードといったデータをグローバルに扱うための技術やXMLや名前空間といった情報交換の技術が基礎となります。その上で、セマンティック・ウェブを実現するうえで核となるRDFを用いてメタデータを作成し、その定義をRDFスキーマによって行います。これで、機械が基本的な意味を理解できるようになりますが、より複雑な意味はオントロジーを用いて定義します。現在は、OWLの勧告仕様までが発表されています。
そして、メタデータを十分に活用できる条件が整ったところで、それらを利用してエージェントが複雑な検索(情報処理)を行えるようにするために、質問やフィルタリングなどをどう行うかというルールや理論を定義します。さらに、検索後にもエージェントが導き出した結果の信頼性を確保するために、証明と呼ばれる検索結果の根拠を提示させたり、電子署名や暗号などの技術を用いたりします。
![]() |
![]() |
| レイヤー・ケーキ(2005年) | レイヤー・ケーキ(2002年) |
ティム・バーナーズ・リーは、2005年4月に開かれた講演会で新しいレイヤー・ケーキの図を示しました。OWL等のオントロジー層の標準化が進んだことを受けたものだと思われます。
| 階層 | 解説 |
|---|---|
| Trust | 信用。電子署名や暗号を基に、エージェントが出した結果の信頼性を判断 |
| Proof | 証明。処理の履歴や理由など、エージェントが導き出した結果の根拠を提示 |
| Signiture | 署名 |
| Encryption | 暗号 |
| Logic framework | 論理。個々の枠組みに応じた論理を定義 |
| SparQL | RDF文書のクエリ言語 |
| OWL | オントロジー言語。概念(語彙)間の関係のより精密な定義と、異なるスキーマ間を関連づけにより相互運用性を確保 |
| Rules | ルール。問い合わせ(質問)やフィルタリングの共通基盤となる論理を定義 |
| DLP bit of OWL/Rules | OWL/RulesのDLP部分。記述論理プログラミング(Description Logic Programming)の技術を活用したOWLとルール |
| RDF Schema | RDFスキーマ。クラス、プロパティーなどの語彙を定義し、メタデータの持つ意味を規定 |
| RDF Core | RDFコア。メタデータを記述するための仕組み |
| XML | XMLは機械処理を可能にする記述言語 |
| Namespaces | 名前空間。タグ名や属性の区別・混在を可能にする仕組み |
| URI | 資源をグローバルに識別するために使用 |
| Unicode | ユニコード。データをグローバルに表現するための文字コード |
セマンティック・ウェブの実現にはかなりの時間が必要と言われています。その主な理由は、オントロジーによる概念体系構築等の上位階層に位置する技術の実現が容易ではないためです。そこで、下位階層の技術のみを用いて比較的容易にセマンティックなデータを公開、共有可能とする方法として考え出されたのがLinked Data(リンクドデータ)です。Linked Dataについて、ティム・バーナーズ・リーは、「Linked Data
」という論文で次の4原則を示しています。
この4原則の意図は、次のようなものと考えられます。
1:URIを用いることで、世の中に存在する事物を一意に識別可能にします。
2:HTTPプロトコルによりURIを参照することで、一般的なウェブ・アーキテクチャーを用いてその事物に関する情報を取得可能にします。
3:データへのアクセスに対し、RDF形式でデータを返したり、SPARQLで問い合わせすることを可能にします。
4:データ内に外部データへのリンクを含むことで、グローバルな情報の発見を可能にします。
現在の通常のウェブは、HTML等の人間が理解できる形で書かれた文書で主に構成され、文書間が単純なリンクでつながれた「文書のウェブ」(Web of Documents)と言えます。一方、Linked Dataは、機械が理解できる形で書かれたデータで構成され、データ間が関係性の定義(意味)を有するリンクでつながれた「データのウェブ」(Web of Data)です。
データを外部のシステムが利用できるようにする場合、API(エイピーアイ;Application Programming Interface)を提供することが多いですが、Linked Dataでは、データモデルはRDF、データ参照はHTTP URIなど、用いるべき標準技術が決まっているため、複数の情報源にまたがるグローバルな環境でのデータ利用がより容易です。
W3Cは、RDF形式の様々なオープンなデータをウェブ上で公開し、異なる情報源のデータ間にRDFのリンクを設定することにより共有データを構築し、ウェブを拡張することを目標として、2007年にLOD
(エルオーディー;Linking Open Data)プロジェクトを発足しています。日本では、国立国会図書館が名称典拠
をLinked Dataとして公開しています。
ポイント
RSSは、UserLand社が開発したscriptingNewsというフォーマットを元に、RDFに基づいた規格としてNetscape社がRSS 0.9(RDF Site Summary)を発表したのが始まりです。その後、Netscape社は仕様を拡張してRDFに基づかないRSS 0.91(Rich Site Summary)を発表しますが、その後は開発から手を引きます。その仕様を引継ぐ形でUserLand社がバージョンアップを続け、さら仕様を拡張したRSS 2.0(Really Simple Syndication)を発表しました。一方で、RSS-DEVワーキンググループという開発者グループがRDFに基づいた仕様を新たに開発し、RSS 1.0(RDF Site Summary)として発表しました。このように、RSSにはRDFに基づいた0.9/1.0系と、基づかない0.9x/2.0系ものが存在しています。RSS 1.0はRDFに基づいた規格であるため、
というアイコンが使用されることがあります。
また、見出しや要約のみでなくコンテンツ自体をも配信可能にしたAtom
(アトム)という別仕様がIETFによって別途開発され、2005年12月にRFC(RFC 4287
)になりました。
| 1999年 | 2000年 | 2002年 | 2003年 | 2005年 | ||||||
| Netscape | RSS 0.9 | → | RSS 0.91 | |||||||
|---|---|---|---|---|---|---|---|---|---|---|
| ↓ | ||||||||||
| UserLand | RSS 0.91 | → | RSS 0.92 | …→ | RSS 2.0 | |||||
| RSS-DEV WG | RSS 1.0 | |||||||||
| IETF | ATOM 0.3 | → | ATOM 1.0 | |||||||