【注意】 このドキュメントは、W3CのImage Annotation on the Semantic Web W3C Working Draft 22 March 2006の和訳です。W3Cから新しいバージョンのドキュメントが発表された場合には、この和訳ドキュメント自体を変更または削除することがあります。
このドキュメントの正式版はW3Cのサイト上にある英語版であり、このドキュメントには翻訳に起因する誤りがありえます。誤訳、誤植などのご指摘は、訳者までお願い致します。
First Update: 2006年6月17日
Copyright © 2006 W3C® (MIT, ERCIM, Keio), All Rights Reserved. W3C liability, trademark and document use rules apply.
マルチメディア・コンテンツを含む多くのアプリケーションは、そのコンテンツに関して記述した何らかの形式のメタデータを使用しています。このドキュメントの目標は、(i)画像メタデータの作成、蓄積、操作、交換、処理に対しセマンティック・ウェブの言語や技術を使用する利点について説明し、(ii)それを実行するためのガイドラインを提供することです。このドキュメントでは、画像アノテーションへのセマンティック・ウェブ技術の使用方法を示した多くのユースケース、この作業のために開発されたRDFおよびOWL語彙の概観、および関連ツールの概観を提供しています。
この項は、このドキュメントの公開時のステータスについて記述しています。他のドキュメントがこのドキュメントに取って代わることがありえます。現行のW3Cの刊行物のリストおよびこの技術報告の最新版は、http://www.w3.org/TR/のW3C技術報告索引で見つけることができます。
このドキュメントはW3Cセマンティック・ウェブ・ベスト・プラクティスおよび展開ワーキンググループ(W3C Semantic Web Best Practices & Deployment Working Group)のセマンティック・ウェブにおけるマルチメディア・アノテーション・タスクフォース(Multimedia Annotation in the Semantic Web Task Force)によって作成された最初の草案です。このグループは、W3Cセマンティック・ウェブ・アクティビティの一部です。
このドキュメントに関する議論は、公開メーリングリストpublic-swbp-wg@w3.org(公開アーカイブ)にお願いいたします。メッセージの件名を「comments: [MM]」という文字列で始めてください。
コメントやさらなるフィードバックを見直した後に、ワーキンググループは、このドキュメントの新バージョンを発表したり、ドキュメントをワーキンググループ・ノートにするかもしれません。
このドキュメントは、2004年2月5日の特許方針(5 February 2004 W3C Patent Policy)の下で活動しているグループによって作成されました。グループは、このドキュメントがW3C勧告になることを予期していません。このドキュメントは、参考情報にすぎません。W3Cは、グループの成果物に関連するあらゆる特許の開示のリストを維持し、このページには特許の開示に関する指示も含まれています。不可欠な請求権(Essential Claim(s))を含んでいると思われる特許に関して実際に知っている人は、W3C特許方針の6項に従って情報を開示しなければなりません。
草案としての公表は、W3Cメンバーによる承認を意味しません。これは草案ドキュメントであるため、他のドキュメントによって、随時更新されたり、置き換えられたり、廃止されることもありえます。作業中以外のものとしてこのドキュメントを引用することは適当ではありません。
読者は、このドキュメントを読んだ後に、個々の画像アノテーションの語彙やツール、その他の関連資源について論じた別のドキュメントを参照することができます。注意: 画像アノテーションに対する多くの現在のアプローチは、セマンティック・ウェブの言語に基づいていません。これらの技術と、RDFやOWLに基づくアプローチの間の相互運用性に関しては、このドキュメントでは取り扱いません。
このドキュメントは、個人的なデジタル写真にアノテーションを付与している専門家ではないエンドユーザから、画像・映像バンクや視聴覚アーカイブ、博物館、図書館、メディア制作、放送業界においてデジタル画像を扱う仕事に従事している専門家に至るまで、画像アノテーションに関心を持っている全ての人々を対象としています。
デジタル画像データへのアノテーション付与の必要性は、画像データの専門家と個人の両方の利用をカバーする種々多様なアプリケーションにおいて認識されています。執筆時点では、マルチメディアとウェブ・コミュニティーやその下層にある標準化組織の違いなどの理由により、この分野の作業のほとんどが、セマンティックに基づく技術を使用せずに行われています。このドキュメントは、画像アノテーションにセマンティック・ウェブの言語や技術を利用する利点について説明し、それを実行するためのガイドラインを提供します。多くの代表的なユースケース、および、そのユースケースで言及した作業の達成に役立つセマンティック・ウェブの語彙やツールに関する記述などで構成されています。この導入以外の部分では、最初に画像アノテーション全般の概観を示し、その後に画像アノテーションに関連する主要なセマンティック・ウェブの概念について簡潔に説明します。
個人が利用する小規模な画像へのアノテーションは比較的簡単でありえます。しかし、大規模で、業務用として耐えうる画像アノテーションは複雑であることで有名です。規模の多様性に伴う背反性により、専門的なマルチメディアのアノテーションは困難になります。
作成時か作成後か
後からではなく先にアノテーションを付与するほうがはるかに簡単であるというのが通則です。通常は、アノテーションの作成に必要な情報の大部分は作成時に入手できます。例としては、大部分のデジタル・カメラが撮影時にJPEG画像に付与する、日時、レンズ設定やその他のEXIFメタデータ、科学や医学の画像における実験データ、創造産業界における脚本、ストーリー・ボード、編集リスト(EDL)の情報などが挙げられます。実際のところ、画像アノテーションにおけるおそらく最も良い唯一の慣行は一般的に、後の段階になって(デジタル・アーティファクトの自動分析や作成後に手入力するデータなどによって)メタデータを付与するよりも、作成過程でメタデータを付与するほうがはるかに安く、より高品質なアノテーションが作成できるということです。
一般的か作業特化か
明確な目標や作業を考慮せずに画像にアノテーションを付与することは、しばしば費用効率がよくありません。誤った種類の情報を使用して画像にアノテーションを付与していたとか、誤った抽象化レベルであったということが、目標とするアプリケーションを開発した後に判明します。アノテーションのやり直しは避けられませんが、高価な解決策です。他方では、目標とするアプリケーションのみを考慮したアノテーションも費用効率がよくないことがあります。アノテーションは、その1つのアプリケーションではうまく機能するかもしれませんが、同じメタデータを他のアプリケーションで再利用しようとすると、異なる状況での再使用には特定的過ぎて適当でないということが分かるかもしれません。ほとんどの場合、メタデータが将来的に使用されうるアプリケーションの範囲は、アノテーション作成時には分かっていません。占いの水晶球でもなければ、アノテーターが実際にとることができる最善策は、不必要なアプリケーションに特化した想定をできるだけ避けながら、開発中のアプリケーションに十分特化した方法をとることです。
手入力か自動かと「セマンティック・ギャップ」
一般的に、手入力によるアノテーションは、正しいレベルの抽象化で画像の記述を提供できます。しかし、時間がかるため、高くつきます。さらに、非常に主観的なものになります。アノテーターが異なれば、同じ画像に対して別の「見方」をしがちです。他方で、自動的な特性抽出に基づくアノテーションは、比較的速く、安く、より体系的でありえます。しかし、多くのアプリケーションにとって画像記述のレベルが低過ぎるものになる傾向があります。画像解析ツールによって得られる低レベルの特性記述と、アプリケーションに必要な高レベルの内容記述の違いは、文献上ではしばしばセマンティック・ギャップと呼ばれています。残りの部分では、手入力と自動の両方における画像アノテーションのユースケースおよび語彙、ツールに関して論じます。
様々な種類のメタデータ
文献では様々な分類のメタデータに関して述べられていますが、アノテーターはみな、画像自体の特性について記述したアノテーションと、画像の内容すなわち画像によって表現された物や人、概念の特性について記述したもとの違いについて少なくとも意識しているべきです。最初の範疇の場合には、典型的なアノテーションとして、タイトル、作者、解像度、画像形式、画像サイズ、著作権、公表年などに関する情報を提供します。多くのアプリケーションは、このようなプロパティーを定義した、一般的で定義済みの比較的小さい語彙を使用します。例としては、ダブリン・コアとVRAコアの語彙が挙げられます。2番目の範疇は、画像によって何が表現されているかの記述であり、手元にある画像の種類によって大きく異なります。また、多くのアプリケーションでは、客観的な観察(「白いシャツを着た人が腕を左から右に動かしている」)と主観的な解釈(「人が武道をしているようだ」)を区別することも役に立ちます。その結果、この目的に使用される語彙には大きなばらつきがあります。典型的な例としては、領域固有の語彙(例えば、天文学の画像やスポーツの画像などに非常に特化した用語の語彙)から領域非依存型の語彙(例えば、あらゆる報道写真について記述できるほど一般的な用語の語彙)まで様々です。さらに、語彙は、大きさ、粒度、形式などにおいて異なる傾向があります。残りの部分では、上記のメタデータのカテゴリーについて論じます。最初の種類の場合、語彙はプロパティーを定義するだけであって、それらのプロパティーの値の定義は別の語彙に準拠するということは珍しくないことに注意してください。例えば、これは、ダブリン・コアとVRAコアの両方の場合に当てはまります。これは、通常、1つの画像にアノテーションを付与するために複数の語彙の用語が必要であることを意味します。
構文上およびセマンティック上の相互運用性の欠如
現在、様々な種類のファイル形式とツールが画像アノテーションに用いられています。相互運用性の欠如のために、あるツール用に開発されたメタデータを別のツールで再利用できないことがしばしばあります。まず、異なるツールは異なるファイル形式を使用するため、ツールAはツールBが提供するメタデータで読むことができないかもしれません(構文レベル相互運用性)。この問題は、両方のファイル形式の内部構造が分かっていれば、変換ツールを開発することで比較的簡単に解決できます。次に、ツールAはツールBが割り当てるのと異なる意味を同じアノテーションに割り当てるかもしれません(意味相互運用性)。この問題を解決するのはかなり困難であり、解決をもたらすための第一歩としては、使用されている語彙が両方のツールに対して明確に定義されていることを要求することです。
この項では、画像アノテーションにおけるセマンティック・ウェブ技術の役割について簡潔に説明します。セマンティック・ウェブの目的は、プログラム(または、「知的エージェント」)が資源(ウェブページや画像など)をより容易に解釈できるように既存のウェブを強化することです。ウェブ資源を、ウェブ資源のコンテンツおよび/または機能を表現したセマンティックなカテゴリーに関連付けようという構想です。
アノテーションのみではマークアップされている事物に関するセマンティクスを構築できません。アノテーションにセマンティクスを導入するために一般的にとられる1つの方法は、ある概念がどのようなもので、それにどのような用語を使用しなければならないのかを慎重に定義するという合意を得ることです。
この合意は「非形式的」でしかありえません。つまり、情報プロパティーの意味を定義する自然言語に依存します。例えば、ダブリン・コアのメタデータ要素セット(Dublin Core Metadata Element Set)は、「タイトル」、「作者」、「日付」などの15の「コアとなる」情報プロパティーを、記述上のセマンティックな定義(自然言語の)とともに提供しています。例えば、RDFやHTMLのMETAタグ内でこれらの情報プロパティーを使用できます。
例えば、以下のRDF/XMLのコードは、「Jeff Z. Panによって作成された画像であるGanesh.jpgがあり、そのタイトルはAn image about the Elephant Ganesh(Elephant Ganeshに関する画像)である」というステートメントを表します。最初の4行は、この記述で使用するXML名前空間を定義しています。RDFに関する詳細な情報を得るための良い出発点はRDF入門です。
<rdf:RDF xml:base="http://example.org/" xmlns="http://example.org/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"> <rdf:Description rdf:about="Ganesh.jpg"/> <dc:title>An image about the Elephant Ganesh</dc:title> <dc:creator>Jeff Z. Pan</dc:creator> </rdf:Description> </rdf:RDF> |
また、補足的なアプローチとしては、オントロジーを使用してウェブ資源の意味を形式的に指定し、それによって「形式的な」合意を得ることです。オントロジーは、世界のエンティティーの種類を記述し、それらがどのように関連付けられるかの科学に関する哲学から借りた用語です。一般的に、コンピュータ科学においては、オントロジーは特定の領域に関する共有化された概念を表します。これは、重要な概念やプロパティー、それらの定義と制約を含む、共有化された共通の語彙を提供し、意図された語彙の意味という点で背後仮説と呼ばれることがあり、人間や異種の分散アプリケーション・システム間でやり取り可能な領域において用いられます。(形式的な)オントロジーのアプローチは、開発が困難ですが、利用者は論理言語で表現された公理を使用して語彙を完全に定義でき、マシンはこの形式的な意味を推論に用いてアノテーションを完全で正当なものにできるため、非形式的のみによる合意アプローチよりも強力です。理想としては、オントロジーの概念とプロパティーは、人間とソフトウェア・アプリケーションが明確に使用できる形式的な定義と自然言語記述の両方を備えているべきです。
セマンティック・ウェブ・オントロジー言語の標準であるOWLが存在しており、W3C勧告になっています。以下に、この言語の例をRDF/XML構文で提供しています。あるオントロジーにおいてImage(画像)のクラスとhasSize(~の大きさである)のプロパティーが存在している場合、以下のOWLステートメントを用いて、BigImage(大型画像)と呼ばれる新しいOWLのクラスを、画像の大きさがBigと等しいクラスImageのすべてのメンバーの集合であると定義できます。詳細については、OWLガイドを読めば、OWL言語に関する適切な概要が得られます。
<rdf:RDF xml:base="http://example.org/" xmlns="http://example.org/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"> xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema##"> xmlns:owl="http://www.w3.org/2002/07/owl#" <owl:Class rdf:about="BigImage"/> <owl:intersectionOf rdf:parseType="Collection"> <owl:Class rdf:about="#Image"> <owl:Restriction> <owl:onProperty rdf:resource="#hasSize"> <owl:cardinality rdf:datatype="&xsd;nonNegativeInteger">1</owl:cardinality> <owl:allValueFrom rdf:resource="#Big"> </owl:Restriction> </owl:intersectionOf> </owl:Class> </rdf:RDF> |
次の項では、画像アノテーションのツールや語彙、実践方法に関するいくつかの要件を浮き彫りにした代表的なユースケースをいくつか示しています。
画像アノテーションは、広範囲な領域、組織、アプリケーションに関連しており、このドキュメントのようなたった一つのドキュメントでカバーすることはできません。その代わり、このドキュメントでは、代表例として多くのユースケースを記述しています。これらのユースケースは、セマンティック・ウェブに基づく画像アノテーションに関連する語彙やツールについて論じるために後で使用します。シナリオの例を5項で示しています。
ユースケースは、4つのカテゴリーで構成されており、画像が表わす主題またはそれを利用するコミュニティーのどちらかを反映しています。アノテーションの過程で用いられるツールと語彙は、これらの基準によってしばしば決まります。
この項では、個人の写真コレクションとニュース報道写真バンクの管理という、あらゆる主題を表わす可能性がある画像に関する2つのユースケースを提供しています。その他のユースケースは、特定領域の画像に焦点を絞っています。
多くの個人の利用者は、休暇、パーティー、旅行、会議、日常生活などの何千枚ものデジタル写真を持っています。写真は通常、パーソナルコンピュータのハード・ドライブに、メタデータを付けずに簡単なディレクトリ構造のもとに格納されています。利用者は一般的に、このコンテンツに簡単にアクセスしたり、それを見たり、自分のホームページに使用したり、プレゼンテーションを作成したり、他の人々がその一部を利用できるようにしたり、その一部を画像バンクに売ったりしたいとさえ考えます。しかし、このコンテンツにアクセスする唯一の方法がディレクトリを見ることであるということがあまりに多く、そのディレクトリの名前は通常、その写真に写されている元の出来事の日付や記述を、1つか2つの単語で表したものです。写真の数が増えるにつれてアクセスが困難になり、コンテンツはすぐに実際に使用されなくなることは明らかです。洗練された利用者は、キーワードとなるメタデータや簡単なカテゴリーの分類を提供してくれる簡単な写真管理ツールを活用します。これが、セマンティックに対応した解決策への第一歩です。5.1項では、セマンティック・ウェブの技術を用いたユースケースのシナリオの例を提供しています。
この項には、文化遺産の領域に属する1つのユースケースが含まれています。この領域には画像の記述における長い伝統があり、多くの標準化された手法や語彙を持っているという特徴があります。
美術館が、コレクションの中で最も重要な芸術作品の高画質デジタル・スキャンを作成するように、それを専門とする企業に依頼したと想定しましょう。美術館が求める品質保証には、すべてのスキャンが、いつ、どこで、誰によって、どのような機材で行われたかなどを追跡できることが含まれます。基盤となる画像データベースを維持している美術館内部のIT部門は、作成したすべての画像のサイズおよび解像度、形式を必要とします。また、原作の収納庫のIDを知る必要があります。美術館のウェブサイトを開発している会社は、著作権情報(これは、原作とそれが由来するコレクションの年代によってスキャンごとに異なる)も必要とします。また、絵画のタイトルやその画家の名前だけでなく、描かれている主題(「日沈」)、ジャンル(「自画像」)、形式(「ポスト印象派」)、時代(「世紀末」)、地域(「西ヨーロッパ」)によっても、利用者がウェブサイトでコレクションへアクセスできるようにしたいと考えます。5.2項では、これらのすべての要件がセマンティック・ウェブの技術を用いることでどのように実現できるかを示します。
この項で展開しているユースケースは、主にメディアの専門家を対象としており、あまり一般に向けではありません。典型的な検索要求は、画像の内容に関するもののみではなく、カメラ・アングルやレンズ設定などのメディアに特化した詳細情報も含む非常に詳細なものであるという特徴があります。
視聴覚アーカイブ・センターは、非常に大規模なマルチメディア・データベースの管理に慣れています。例えば、INA(フランス国立視聴覚研究所、French Audiovisual National Institute)は、テレビ・ドキュメントを65年間、そしてラジオ・ドキュメントを50年間アーカイブしてきており、100万時間以上の放送番組を蓄積しています。INAが保存している画像および録音アーカイブは、専門家の利用(フランスおよび世界中のジャーナリスト、映画監督、プロデューサー、視聴覚およびマルチメディアのプログラマーや出版社)に向けたものであるか、研究目的(学生や研究者、教師、作家といった公衆のための)でやりとりされるものです。格納されたデータへの効率的なアクセスを可能にするために、これらのビデオ・ドキュメントの大部分は、その内容によって記述や索引付けが行われています。そして、グローバルなマルチメディア情報システムは、一部の非常に複雑で正確な検索要求に対応可能な、精密で詳細なものでなければなりません。例えば、ジャーナリストや映画監督といったクライアントは、ナショナル・チームのあるサッカー選手がヘディングで獲得した最初のゴールを見ることができる過去の放送番組の抜粋を求めるかもしれません。質問には、ゴールの動作は前からのカメラ映像と逆アングルのカメラ映像の両方が入手できなければならないといった、いつくかの技術的な追加要件が含まれる可能性があります。最後に、クライアントは、日付、場所、最終得点のような、このサッカーの試合に関するいくつかの一般的な情報を覚えているかもしれませんし、いないかもしれません。5.3項では、このユースケースに対するセマンティック・ウェブの技術を用いた可能な解決策を提供します。
この項では、科学の領域の2つのユースケースを提示します。この領域では通常、画像は大規模で複雑なオントロジーを用いてアノテーションが付与されます。
多くの組織が非常に大規模な画像コレクションを保持しています。例えば、アメリカ航空宇宙局(National Aeronautics and Space Administration、NASA)は、異なる形式、異なるレベルの可用性や解像度、様々なレベルの詳細や形式による関連記述情報を付与して格納された何十万もの画像を所有しています。また、このような組織は、収集・目録化した何千もの画像を継続的に作り出しています。したがって、様々な領域にまたがる多種多様なあらゆる画像コンテンツを目録化するための手段が必要です。画像自体(例えば、作成日、dpi、情報源)と、画像の特定の内容に関する情報の両方が必要です。さらに、関連するメタデータは、画像とデータの連関関係を累積的に構築できるように維持・拡張が可能でなければなりません。最後に、管理機能は、コンテンツ・タイプ、所有権、権限などに基づいて制限を付けることができるような柔軟なメカニズムを備えているべきです。5.4項では、このユースケースに対する解決策の例を提供します。
画像にアノテーションを付与するためにどの語彙を用いるかの選択は、アノテーション計画における重要な決定事項です。画像の様々な関連する側面をカバーするためには通常、複数の語彙が必要です。語彙概要(Vocabularies Overview)という名の別のドキュメントは、多くの画像アノテーションに関連する個々の語彙について論じています。この項以外の部分では、より一般的な問題について論じています。
関連する語彙の多くがセマンティック・ウェブ以前に開発されており、語彙概要は、そのような語彙のRDFやWOLへの変換を多くリストアップしています。この領域において最も有名で重要な国際標準で、MPEG-7として広く知られているマルチメディア・コンテンツ記述(Multimedia Content Description)は、XMLスキーマを用いて定義されています。執筆時点で、一般的に受け入れられている標準的なXMLスキーマ定義からRDFやOWLへのマッピング方法はありません。しかし、今までにいくつかの代替的なマッピング方法が開発されており、これらについては概観で論じています。
その他の関連語彙は、VRAコアです。ダブリン・コア(DC)は、オンライン資源一般に対する小さな汎用語彙を定めており、一方で、VRAコアは視覚資源を特に対象とした同様の集合を定義しており、DC要素を特化しています。ダブリン・コアとVRAコアは、語彙の用語を要素として参照し、どちらも同じように要素を精緻化するための限定子を使用します。VRAコアのすべての要素は、ダブリン・コアの同等フィールドへの直接的なマッピングを有しているか、1つ以上のDC要素を特化したものとして定義されているかのどちらかです。さらに、両方の語彙は、実装の課題や基礎となるシリアル化言語から抜粋する方法で定義されています。しかし、大きな違いは、ダブリン・コアの場合は、一般的に受け入れられているRDFへのマッピング方法が、関連スキーマとともに存在しているということです。執筆時点では、これはVRAコアには当てはまらず、概観では代替のマッピング方法の是非について論じています。
セマンティック・ウェブに基づく多くのアノテーションは資源全体に関するものです。例えば、<dc:title>プロパティーは、ドキュメント全体に適用されます。画像やその他のマルチメディア・ドキュメントの場合、資源の特定の部分(例えば、画像のある領域)についてアノテーションを付与する必要がしばしばあります。マルチメディア・コンテンツのある特定部分の位置指定を扱うメタデータを共有することは重要です。なぜならば、それにより同じコンテンツを参照する複数のアノテーション(複数のユーザによる可能性がある)を持つことができるからです。
画像のアーカイブ化や記述に用いられる多数のツールの中のいくつかをセマンティックなアノテーションに使用できるかもしれません。この項の目的は、適切な使用に向けたいくつかのガイドラインを提供するために、セマンティックな画像アノテーション・ツールの主な特性の一部を確認することです。これらのツールの利用者は、この特性を基準として用いることによって、特定のアプリケーションに最も適したツールを選択できます。
コンテンツの種類。ツールは、様々な種類のコンテンツにアノテーションを付与できます。通常、生のコンテンツは画像で、その形式は、jpg、png、tifなどでありえますが、映像にアノテーションを付与できるツールもあります。
メタデータの種類。アノテーションは、様々な利用目的を持つことができます。アメリカIIプロジェクトの作成が提供する分類に従うと、メタデータは、記述的(情報の記述および識別用)または構造的(ナビゲーションおよび提示用)、管理的(管理および処理用)でありえます。ほとんどのツールは、記述メタデータを提供するために使用することができ、そのうちの一部は、構造的および管理的な情報を提供してくれます。
メタデータの形式。アノテーションは、様々な形式で表現できます。他の(セマンティック・ウェブ)アプリケーションとの相互運用性を確保する必要があるため、この形式は重要です。セマンティック・ウェブの世界ではOWLとRDFのほうが適切ですが、自動分析結果を交換するためのメタデータ形式としてはMPEG-7がしばしば使用されています。
アノテーションのレベル。語彙を用いて画像にアノテーションを付与する機会を提供してくれるツールもあれば、フリー・テキストでのアノテーションのみが可能なものもあります。オントロジーを(RDFかOWL形式で)使用すると、一般的に、より形式的な方法でセマンティクスが提供されるため、アノテーションのレベルは統制されていると考えられますが、そうでない場合は、アノテーションのレベルはフリー形式であると考えられます。
クライアントサイド要件。この特性は、サービスにアクセスするためにウェブ・ブラウザを使用できるのか、スタンドアロンのアプリケーションをインストールする必要があるのかを意味します。
ライセンス条件。オープンソースのものもあれば、そうでないものもあります。マルチメディア・アノテーションの分野の利用者および潜在的な研究者や開発者にとって、特定ツールを選択する前にこの課題について承知していることは重要です。
共同か個別か。この特性は、ウェブで共有可能な映像データベースのアノテーションの枠組みとしてツールを利用できるのか、個別利用者のマルチメディア・コンテンツ・アノテーション・ツールとして利用できるのかを意味します。
粒度。粒度は、アノテーションがセグメント・ベースなのか、ファイル・ベースなのかを定めています。使用目的によっては、画像の構造を示すことが重要でありえるため、これは重要な特性です。例えば、情報に関するいくつかの手がかり(テキスト部分や画像の部分のような)を記述したり、画像に描写されている異なる物体(例えば、人)を定義・記述したりと、画像の特異な部分に関するアノテーションを提供することは有益です。
スレッド式か非スレッド式か。この特性は、前のアノテーションに対応または追加し、これを反映するためにアノテーションの表示をずらして配置/構造化するツールの機能を意味します。
アクセス・コントロール。これは、利用者別に提供されるメタデータへのアクセスを意味します。例えば、簡単なアクセス権限(閲覧のみ)を有する利用者と完全なアクセス権限(閲覧や変更)を有する利用者を区別することは重要です。
最後に、ツールの適切さは利用者が必要とするアノテーションの性質に依存するため、あらかじめ判断することはできません。セマンティック・ウェブ画像アノテーション・ツール(Semantic Web Image Annotation Tools)というウェブページが別途維持されており、インターネット上にある大部分のアノテーション・ツールが、上記の特性に従って分類されています。この別ドキュメントには、コメント、提案、新しいツールのお知らせが追加されるでしょう。以下の項で示しているように、ツールは、ユースケースに応じて、様々な種類のアノテーションに使用できます。
この項では、2項で示したユースケースを裏付けるために、セマンティック・ウェブの技術をいかに使用できるかに関する実現可能なシナリオを記述しています。これらのシナリオは、単に説明に役立つ実例として提供するものであり、W3Cメンバーやセマンティック・ウェブ・ベスト・プラクティスおよび開発ワーキンググループによる承認を意味するものではありません。
2.1項で記述したユースケースを解決するためには、複数の語彙を使用する必要があります。個人のデジタル・コレクションの写真の領域は潜在的に非常に広く、スポーツ、エンターテインメント、観光などを含むことがあります。このユースケースを解決するには、語彙を適切に選択するために、利用者が画像に関するどのような情報を知っているかを考慮に入れなければなりません。このユースケースでは、セマンティックなラベルを作成し、写真と関連付ける必要があります。セマンティックなラベルは、メディア・タイプ・アノテーションとコンテンツ・タイプ・アノテーションの両方を参照します。例では、手入力、半自動、自動の3つの異なるアプローチをカバーしています。各アプローチには利点と欠点があり、それぞれに対して異なる解決策が必要です。
手入力によるアノテーションは、最も正確な情報を提供する可能性がありますが、最も時間を要すため、費用がかかります。手入力によるアノテーションでは、大抵の利用者は、形やテクスチャ、色ヒストグラムなどの低いレベルの特性(例えば、ビジュアル記述子として知られる低いレベルの画像特性)を用いて映像データベースを検索することには興味がないため、通常は、メディアの機能に基づいた包括的なアノテーションを作成する必要は全くありません。また一方で、ほとんどのアプリケーションの場合は、画像の種類(すなわち、jpeg、tiffなど)や画像の解像度のような、一部の最小限のメディア・タイプの情報が必要です。さらに、作成日、作者、主題カテゴリーなどに関する来歴情報も一般的です。上記の情報を記述するためには、VRA[VRA in RDF/OWL]を使用できます。
画像の実際の内容に関しては、各主題のカテゴリーによって様々な語彙を使用できます。例では、ビーチでの休日という主題カテゴリーの内容を持つ写真を示しています。そのため、画像の内容を記述するためには、ビーチのオントロジーとPhotoStuffという画像アノテーション・ツール[PhotoStuff]を使用できます。
半自動によるアノテーションは、手入力のアノテーションを支援し、より高いレベルのセマンティックなラベルを抽出します(逆の場合も同じ)。画像の分割や物体認識ツールなどの画像解析ツールは、メディアのより低いレベルの側面に基づくものです。その結果、この方法には、より大規模な低いレベルのメディア・タイプ記述子が必要です。現在のマルチメディア・コミュニティーの現在の傾向は、画像解析ツールと、マルチメディアおよび領域固有の語彙とを組み合わせることにより、画像解析や認識、検索処理がよりセマンティックなレベルに移行しています。
上記の休日のビーチの例を用いて画像に半自動的にアノテーションを付与するためには、低いレベルの画像概念や関係性が必要です(色、テクスチャなど)。MPEG-7の視覚パート[MPEG-7]は、そのような機能の表現に適した枠組みです。このような理由で、自動的に認識され、ひいてはアノテーションを付与されるように、ビジュアル記述子(Visual Descriptor Ontology、VDO)[VDO]をビーチ領域のオントロジーと組み合わせて使用し、ビジュアル記述子を領域概念に割り当てることができます。例えば、M-OntoMat Annotizerを使用して、セマンティックな意味を持つ物体を手動で分割し、次にそれぞれのビジュアル記述子を抽出して、定義済みの領域オントロジー(ビーチのオントロジー)におけるプロトタイプのインスタンスとして保存することができます。さらに、半自動処理には推論のサポートも必要です。推理ツールを用いれば、画像内のより高レベルの概念や事象を認識できます。マルチメディアの推論ツールには、画像内の物体に関する時空間的な認識が必要です(例えば、人は1つの身体、2本の手と2本の脚、1つの頭で構成されるとか、海の上に空があるなど)。M-OntoMat Annotizerを用いた領域概念と関連するビジュアル記述子に関する例を、以下のRDFグラフ(図1)で示しています。ここでRDFコードを見ることができます。
自動によるアノテーションは、利用者の関与を要しないことを意味し、したがって、時間的、費用的な効率が高いです。しかし、完璧な画像の分割、人物の検出、物体の認識でもってしても、ツールによって「カテリーナ(Katerina)のタイでの休日」などの事象を認識することはできないでしょう。ビーチでの休日の例では、自動的に画像にアノテーションを付与するためには、画像のコンテキストを得る(例えば、画像は山ではなくビーチにおける休日に関するものだということを自動的に検出する)ためのコンテキスト・オントロジーなどのようなより多くの語彙が必要です。また、プロトタイプのインスタンスを作成するためには、セマンティックな意味を持ちうる領域を自動的に分割し、ビジュアル記述子を抽出・保存するためにVDOや領域オントロジー、M-OntoMat Annotizerを用いて自動化する必要があります。そのような高度なアプローチは、この成果物の範囲を超えています。
解決策の例は、手入力によるアノテーションでさえも重要であるということを示しています。個人の写真にアノテーションを付与する統一的な方法を示すのは困難です。写真のコンテキストは、アノテーションの処理にどのオントロジーを使用しなければならないかを示しています。上の例では、写真に関するコンテキストが夏期休暇であるため、ビーチの領域オントロジーが使用されています。アノテーションを完了させるには、領域固有のオントロジーとは別に、メディア・タイプのオントロジーと写真アノテーション・ツールが必要です。
半自動的なアノテーションに関しては、多くの未確定の研究や技術的な課題がまだあります。完全な画像解析ツールをもってしても、システムがセマンティックな意味を持ちうる事象を認識することはできません。この問題は、低いレベルの画像解析ツールと高いレベルの画像アノテーションの間に存在するギャップが原因です。
2.2項で記述したユースケースの要件の多くは、VRAで開発された語彙をGettyのAATやULANなどの領域固有の語彙と組み合わせて用いることで満たすことができます。この項では、例として英語では「Garden at Sainte-Adresse」として知られている、クロード・モネの絵画のRDFアノテーションを提供しています。これはニューヨークのメトロポリタン美術館のコレクションのひとつです。対応するRDFファイルは、別の文書として入手できます。アノテーションを作成するために特別なアノテーション・ツールは使用していません。同様のメタデータを作成する必要がある文化遺産機関は、自分達のコレクションのデータベースの既存の情報をRDFにエクスポートすることによって、それを実現するでしょう。以下では、このファイルで使用されている様々なアノテーションについて論じています。
ファイルは、XMLバージョンの定義、後に使用するRDFとVRAの名前空間に対するエンティティーのエンコードおよび定義によって、典型的なRDF/XMLファイルとして始まります。Mark van Assemが開発したVRAコアのRDF/OWLスキーマを使用していることに注目してください。
<?xml version='1.0' encoding='ISO-8859-1'?> <!DOCTYPE rdf:RDF [ <!ENTITY rdf "http://www.w3.org/1999/02/22-rdf-syntax-ns#"> <!ENTITY vra "http://www.vraweb.org/vracore/vracore3#">
例には同じ絵画の2つの異なる画像に関するアノテーションが含まれています。VRA語彙が実行する重要な区別は、美術作品自体について記述したアノテーションと、その作品の(デジタル)画像について記述したアノテーションとの区別です。この例でもこの区別を使用します。RDFでは、資源に関して何かを述べるためには、その資源がURIを持っている必要があります。したがって、2つの画像のURIだけではなく、絵画自体のURIも必要となるでしょう。
<!ENTITY image1 "http://www.metmuseum.org/Works_Of_Art/images/ep/images/ep67.241.L.jpg"> <!ENTITY image2 "http://www.artchive.com/artchive/m/monet/adresse.jpg"> <!ENTITY painting "http://thing-described-by.org/?http://www.metmuseum.org/Works_Of_Art/images/ep/images/ep67.241.L.jpg"> ]>
VRAコアは、作品、画像、アノテーションの記録をどう識別すべきかを定めていません。この2つの画像の場合、我々は、識別用のURIとして画像のURIを使用するという最も簡単な解決策を選ぶことにしました。しかし、絵画自体を識別する似たようなURIがありませんでした。我々は、複数の画像のうちの1つのURIを再利用できませんでした。これは、概念的に間違っているだけではなく、技術的なエラーにもつながりえます。これは、vra:Imageという既存のインスタンスやvra:Workクラスのインスタンス作成するでしょう。しかし、これはスキーマでは許されていません。
例では、画像のうちの1つのURIを任意に選択し、その前にhttp://thing-described-by.org/?を置くことにより、絵画のURIを「作り出す」ことにしました。これにより、画像自体とは異なる新しいURIが作成されますが、ブラウザがこれを解決する際には、ウェブ・サーバであるthing-described-by.orgが画像のURIにリダイレクトするでしょう(httpに基づくURIの使用がこの場合に本当に適切であるかどうかが議論になりえます。この議論に関する詳細は、HTTPのURIが何を識別するのか?および[httpRange-14]を参照してください)。
警告: 以下に記述しているアノテーションには、vra:idNumber.currentRepository要素も含まれており、これは美術館の収納庫でローカルに使用されている識別子を定義します。これらのローカルな識別子を、URIで提供されるグローバルに一意な識別子と混同しないでください。
次の行でRDFブロックが始まり、上記で定義したXMLエンティティーを用いて名前空間を宣言します。利便性のため、使用されているVRAスキーマをエージェントが発見しやすいようにrdf:seeAlsoを使用します。
<rdf:RDF xmlns:rdf="&rdf;" xmlns:vra="&vra;" rdf:seeAlso="http://www.w3.org/2001/sw/BestPractices/MM/vracore3.rdfs" >
以下の行は、絵画自体のプロパティーについて記述しています。2つの画像のプロパティーは、後ほど扱うつもりです。最初に、タイトル、作者や作成日などの絵画に関する一般的な情報を提供しています。これらのプロパティーに関しては、VRAはダブリン・コアの規定に厳密に従います。
<!-- Description of the painting --> <vra:Work rdf:about="&painting1;"> <!-- General information --> <vra.title>Jardin à; Sainte-Adresse</vra.title> <vra:title.translation>Garden at Sainte-Adresse</vra:title.translation> <vra:creator>Monet, Claude</vra:creator> <!-- ULAN ID:500019484 --> <vra:creator.role>artist</vra:creator.role> <!-- ULAN ID:31100 --> <vra:date.creation>1867</vra:date.creation>
多くの値はRDFリテラルで埋められており、スキーマによる値の制約はしていません。しかし、これらの値の多くは実際には、GettyのAATやULAN、MIMEで定義されている画像タイプなどの、別の統制語彙の用語です。統制語彙を使用すると、フリー・テキストのアノテーションに伴う多くの問題を解決できます。例えば、ULANは、芸術家の名前を索引付けする際には、1つの綴りを用いることを推奨しているため、我々はその綴り(「Monet, Claude」)をvra:creatorフィールドに使用しました。クロード・モネおよび「芸術家」(artist)というクラスを記述した、データ内のULAN識別子のクラスを上記のXMLコメントで示しています。統制語彙を使用することにより、後になって、異なる綴りの同じ名前を混同したり、「統合」が必要になったりすることを避けることができます。
しかし、統制語彙を使用しても不明確な用語の問題は解決されません。以下のアノテーションでは、「oil paint」(油絵の具)、「oil paintings」(油絵)、「oil painting (technique)」(油絵(技法))の3つの異なる用法を使用しています。1番目はキャンバス上で用いられる絵の具の種類、2番目は作品の種類(例えば、作品は油絵でありエッチングではない)、最後は芸術家が使用した絵画技法を意味します。3つの用語はすべて、AAT用語階層構造の異なる枝に属する異なる概念を指し示します(これらの概念のAAT識別子はXMLコメントで記述します)。しかし、異なる概念に非常に似た用語を使用すると混乱は必至でしょう。そうではなく、owl:datatypePropertiesの使用からowl:objectPropertiesの使用に切り替え、リテラルのテキストを、使用している概念のURIへの参照に置き換えることができます。例えば、
<vra:material.medium>oil paint</vra:material.medium>
を
<vra:material.medium rdf:resource="http://www.getty.edu/aat#300015050"/>
に変更できます。
しかし、この方法には、対象語彙のすべての用語に対して一意なURIに基づく命名スキームが定義されている必要があります(そして、この場合、そのようなURIに基づく命名スキームはAAT用語にはまだ存在していません)。追加的なセマンティック・ウェブに基づく処理も、一旦これらの語彙がRDFやOWLで利用できるようになったときのみに可能となります。
<!-- Technical information --> <vra:measurements.dimensions>98.1 x 129.9 cm</vra:measurements.dimensions> <vra:material.support>unprimed canvas</vra:material.support> <!-- AAT ID:300238097 --> <vra:material.medium>oil paint</vra:material.medium> <!-- AAT ID:300015050 --> <vra:type>oil paintings</vra:type> <!-- AAT ID:300033799 --> <vra.technique>oil painting (technique)</vra.technique> <!-- AAT ID:300178684 --> <!-- Associated style etc --> <vra:stylePeriod>Impressionist</vra:stylePeriod> <!-- AAT ID:300021503 --> <vra:culture>French</vra:culture> <!-- AAT ID:300111188 -->
多くのアプリケーションにとって、絵画に何が実際に描かれているかを知るのは役に立ちます。この形式のアノテーションを任意のレベルの詳細情報に追加できます。例を簡潔なものにしておくために、絵画に描かれている人々の名前のみをvra:subjectフィールドを用いて記録することにしました。同じく簡潔さのために、絵画の特定の部分や領域をアノテーションしないことにしました。これは、例えば絵画内の様々な人物が描かれている関連領域の識別などに適していたかもしれません。
<!-- Subject matter: (who/what is depicted by this work --> <vra:subject>Jeanne-Marguerite Lecadre (artist's cousin)</vra:subject> <vra:subject>Madame Lecadre (artist's aunt)</vra:subject> <vra:subject>Adolphe Monet (artist's father)</vra:subject>
以下のフィールドの多くは、絵画の現在の状況に関する情報ではなく、絵画が過去に属していた場所やコレクションに関する情報を含んでいます。これは、この領域において重要な来歴情報を提供しています。
<!-- Provenance --> <vra:location.currentSite>Metropolitan Museum of Art, New York</vra:location.currentSite> <vra:location.formerSite>Montpellier</vra:location.formerSite> <vra:location.formerSite>Paris</vra:location.formerSite> <vra:location.formerSite>New York</vra:location.formerSite> <vra:location.formerSite>Bryn Athyn, Pa.</vra:location.formerSite> <vra:location.formerSite>London</vra:location.formerSite> <vra:location.formerRepository> Victor Frat, Montpellier (probably before 1870 at least 1879; bought from the artist); his widow, Mme Frat, Montpellier (until 1913) </vra:location.formerRepository> <vra:location.formerRepository>Durand-Ruel, Paris, 1913</vra:location.formerRepository> <vra:location.formerRepository>Durand-Ruel, New York, 1913</vra:location.formerRepository> <vra:location.formerRepository> Reverend Theodore Pitcairn and the Beneficia Foundation, Bryn Athyn, Pa. (1926-1967), sale, Christie's, London, December 1, 1967, no. 26 to MMA </vra:location.formerRepository> <vra:idNumber.currentRepository>67.241</vra:idNumber.currentRepository> <!-- MMA ID number -->
残りのプロパティーは、メタデータと権利管理ステートメントを作成するために用いた資源の起源を記述しています。vra:description要素を用いて、ウェブページへのリンクに追加記述情報を提供しています。
<!-- extra information, source of this information and copyright issues: --> <vra:description>For more information, see http://www.metmuseum.org/Works_Of_Art/viewOne.asp?dep=11&viewmode=1&item=67%2E241§ion=description#a</vra:description> <vra:source>Metropolitan Museum of Art, New York</vra:source> <vra:rights>Metropolitan Museum of Art, New York</vra:rights>
最後に、解像度、著作権などが異なる2つの絵画の画像に特有のプロパティーを定義しています。最初のアノテーションはメトロポリタン自身のウェブサイトにある500×300ピクセルの画像について記述しており、2番目のものはMark Hardenのアーカイブのウェブサイトにあるより大きな解像度(1075×778ピクセル)の画像のプロパティーを記述しています。VRAコアは作品とその関連画像がどのように関連付けられるべきかを指定しないことに注意してください。例では、Van Assemの提案に従い、vra.relation.depictsを用いて、画像を、画像に描写されている作品に明示的にリンクしています。
<!-- Description of the first online image of the painting --> <vra:Image rdf:about="&image1a;"> <vra:type>digital images</vra:type> <!-- AAT ID: 300215302 --> <vra:relation.depicts rdf:resource="&painting1;"/> <vra.measurements.format>image/jpeg</vra.measurements.format> <!-- MIME --> <vra.measurements.resolution>500 x 380px</vra.measurements.resolution> <vra.technique>Scanning</vra.technique> <vra:creator>Anonymous employee of the museum</vra:creator> <vra:idNumber.currentRepository>ep67.241.L.jpg</vra:idNumber.currentRepository> <vra:rights>Metropolitan Museum of Art, New York</vra:rights> </vra:Image>
<!-- Description of the second online image of the painting --> <vra:Image rdf:about="&image1b;"> <vra:type>digital images</vra:type> <!-- AAT ID: 300215302 --> <vra:relation.depicts rdf:resource="&painting1;"/> <vra:creator>Mark Harden</vra:creator> <vra.technique>Scanning</vra.technique> <vra.measurements.format>image/jpeg</vra.measurements.format> <!-- MIME --> <vra.measurements.resolution>1075 x 778px</vra.measurements.resolution> <vra:idNumber.currentRepository>adresse.jpg</vra:idNumber.currentRepository> <vra:rights>Mark Harden, The Artchive, http://www.artchive.com/</vra:rights> </vra:Image> </rdf:RDF>
上例は、いくつかの未確定の技術的な課題を露呈しています。例えば、絵画のURIの作り出し方はかなり恣意的です。望ましくは、一般に受け入れられている絵画のURIスキームが存在していたでしょう(c.f.:生命科学の概念を識別するために用いられるLSIDスキーム)。執筆時点では、ここで使用したVRAおよびAAT、ULAN語彙には現在、一般に認められているRDFやOWLの表現がないため、選択しだアプローチの相互運用性が低くなります。別の課題は、ツールのサポートです。既にRDFをサポートし始めている大手のデータベース業者もありますが、既存コレクションのデータベースからここで示しているような種類のRDFを生成するには、多くの場合、大きなカスタム変換ソフトウェアが必要でしょう。
モデリングの観点から、主題のアノテーションは常に大変です。上で述べたように、これは非常にアプリケーションに依存したものでありえるため、何にどの深さまでアノテーションを付与すべきかに関する一般的なガイドラインを示すことは困難です。例では、絵画に登場する人々にアノテーションを付与したこと、そして、2つの画像のURIではなく、絵画のURIのプロパティーとしてこの情報をモデル化したことに注意してください。しかし、ユースケースをわずかに変更し、1つの通常の画像とその下にある古い絵画を示した1つのX線画像にすれば、より特定的な主題アノテーションを特定の画像のプロパティーとしてモデル化する意味をより理解できたかもしれません。
それにもかかわらず、例では、ユースケースで記述した課題の大部分が、現在のセマンティック・ウェブの技術を用いて解決できるということを示しています。これは、既存の語彙を用いて絵画の様々な側面とそれを描写している画像にアノテーションを付与するために、どのようにRDFを使用できるかを示しています。
2.3項で記述したユースケースは、複数の語彙を使用する必要がある典型的なものです。記述する画像が、特定の試合中(例えば、オセール対メッツ)にオフサイド・ポジションのために無効になったあるサッカー選手(例えば、J.A Boumsong)のゴールに関するものであると仮定します。まず、テレビで放送された週刊スポーツ・マガジンから画像を抽出できます。この番組は、[TV Anytime forum]が開発した語彙を用いて完全に記述できます。次に、この画像は、オセール対メッツ戦においてJean-Alain Boumsong選手がヘティングで得点した様子を示しています。このサッカーの試合に関するコンテキストは[MPEG-7]の語彙を用いて記述でき、一方で、この動作自体は[Tsinaraki]が開発したようなサッカー・オントロジーで記述できるかもしれません。最後に、サッカー・ファンは、このゴールが実際には別選手のオフサイド・ポジションによって無効になったことに気付くかもしれません。画像では、良くない位置にいたこの選手を円で強調できます。再び、該当する画像の範囲を定めるためのMPEG-7の語彙と、動作自体を記述するための領域固有のオントロジーを組み合わせて記述できます。以下では、例として、これらの3つのレベルの記述に加え、関連する語彙を示したRDFアノテーションを提供しています。
フランスの公共チャンネルであるFrance 2で2002年3月17日に放送されたStade 2という名の週刊スポーツ・マガジンの画像があると想定しましょう。このコンテキストは、テレビ(または、ラジオ)のアナウンサーがウェブや電子番組ガイドで番組のリストを作成するために用いているTV Anytimeの語彙を使用して表わすことができます。したがって、この語彙は、番組を目録化するために必要な概念と関係性を提供し、対象者に、形式やジャンル、何らかの保護者同伴指定の情報を提供します。語彙には、広告料に適応させるために極めて重要な、実際の対象者や最高視聴時間を後になってアナウンサーが記述するための語彙も含まれています。
<?xml version='1.0' encoding='ISO-8859-1'?> <!DOCTYPE rdf:RDF [ <!ENTITY rdf "http://www.w3.org/1999/02/22-rdf-syntax-ns#"> <!ENTITY xsd "http://www.w3.org/2001/XMLSchema#"> ]> <rdf:RDF xmlns:rdf="&rdf;" xmlns:xsd="&xsd;" xmlns:tva="urn:tva:metadata:2002" > <tva:Program rdf:about="program1"> <tva:hasTitle>Stade 2</tva:hasTitle> <tva:hasSynopsis>Weekly Sports Magazine broadcasted every Sunday</tva:hasSynopsis> <tva:Genre rdf:resource="urn:tva:metadata:cs:IntentionCS:2002:Entertainment"/> <tva:Genre rdf:resource="urn:tva:metadata:cs:FormatCS:2002:Magazine"/> <tva:Genre rdf:resource="urn:tva:metadata:cs:ContentCS:2002:Sports"/> <tva:ReleaseInformation> <rdf:Description> <tva:ReleaseDate xsd:date="2002-03-17"/> <tva:ReleaseLocation>fr</tva:ReleaseLocation> </rdf:Description> </tva:ReleaseInformation> </tva:Program> </rdf:RDF>
行うべき。
2つの別個のファイル(範囲の位置を表したものと、内容のアノテーションを表したもの)と、両方の記述を持った1つのRDFファイルのどちらを持つかの賛否を論じる。
MPEG-7が提供する様々なアノテーション・リンクについて論じる(アノテーション、描写、例示など)。
2.4項のユースケースで示した要件に対する1つの可能な解決策は、オントロジー(OWL、そして/または、RDFS)の概念を用いて、画像、そして/または、その範囲に関する情報に利用者がアノテーションを付与できるようなアノテーションの環境です。より明確に言えば、主題の専門家ならば、画像やその特定の内容に関するメタデータ要素を言明できるでしょう。マルチメディア関連のオントロジーを用いて、特定の画像内の範囲を指定し、表現できます。そして、描写/アノテーション・プロパティーによって、この範囲と画像を関連付けることができます。例えば、MINDSWAPデジタル・メディア・オントロジーを(画像や画像の範囲などを表現するために)、FOAFと併用することにより(画像の描写を言明するために)この機能を提供できます。さらに、範囲に関する低いレベルの画像特性を表現するためには、aceMediaビジュアル記述子オントロジー(aceMedia Visual Descriptor Ontology)を使用できます。
このような画像の内容を記述するためには、画像内に描写されている、領域固有の内容を表わす仕組みが必要です。このユースケースの場合、空間特化の概念と関係性を定義する領域オントロジーを使用できます。このようなオントロジーは、自由に入手でき、以下のものが含まれています(しかし、これらに限られていません)。
上で論じたように、このシナリオには、画像(そして、できればその範囲)がある事物を描写していると述べる能力が必要です。例えば、アポロ7号土星ロケットの発射の写真を考えてみてください。画像がアポロ7号の発射を描写しており、ロケットの周りの長方形の範囲内にアポロ7号土星IB宇宙船が描かれていて、画像の作者はNASAであるなどということを含む言明を行いたいと考えるでしょう。これを達成できる1つの方法は、FOAFやMINDSWAPデジタル・メディア・オントロジーを含む、様々なマルチメディア関連のオントロジーを組み合わせて使用することです。より明確に言えば、画像描写は、MINDSWAPデジタル・メディア・オントロジーで定義されている描写プロパティー(foaf:depictionのサブプロパティー)で言明できます。したがって、ウェブで定義されたインスタンスに画像をセマンティックにリンクできます。画像の範囲は、ImagePartの概念(MINDSWAPデジタル・メディア・オントロジーでも定義されている)で定義できます。さらに、svgOutlineというプロパティーを用いて、範囲にバウンディング・ボックスを加えることができ、これによって画像の部分の位置指定が可能になります。基本的に、範囲のSVG輪郭(SVG XMLリテラル)は、このプロパティーを用いて指定できます。ダブリン・コア標準やEXIFスキーマを用いて、作者、大きさなどを含む、画像に関するより一般的なアノテーションも提示できます。以下の図2では、これらのサンプル・アノテーションのサブセットをRDFグラフで示しています。
図2は、このアプローチでどのようにメタデータを画像にリンクするかを示しています。
http://www.mindswap.org/2005/owl/digital-media#depicts
で識別されます。http://www.mindswap.org/2005/owl/digital-media#hasRegion
で識別されます。http://www.mindswap.org/2005/owl/digital-media#svgOutline
およびSVG断片を用いて位置指定されます。さらに、アポロ7号発射の全体的なアノテーションをRDF/XMLで以下に示しています。
<rdf:RDF xmlns:j.0="http://www.w3.org/2003/12/exif/ns#" xmlns:j.1="http://www.mindswap.org/2005/owl/digital-media#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:j.2="http://semspace.mindswap.org/2004/ontologies/System-ont.owl#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:j.3="http://semspace.mindswap.org/2004/ontologies/ShuttleMission-ont.owl#" xml:base="http://example.org/NASA-Use-Case" > <rdf:Description rdf:about="A0"> <j.1:depicts rdf:resource="#Saturn_1B"/> <rdf:type rdf:resource="http://www.mindswap.org/~glapizco/technical.owl#ImagePart"/> <rdfs:label>region2407</rdfs:label> <j.1:regionOf rdf:resource="http://grin.hq.nasa.gov/IMAGES/SMALL/GPN-2000-001171.jpg"/> <j.1:svgOutline> <svg xml:space="preserve" width="451" heigth="640" viewBox="0 0 451 640"> <image xlink:href="http://grin.hq.nasa.gov/IMAGES/SMALL/GPN-2000-001171.jpg" x="0" y="0" width="451" height="640" /> <rect x="242.0" y="79.0" width="46.0" height="236.0" style="fill:none; stroke:yellow; stroke-width:1pt;"/> </svg> </j.1:svgOutline> </rdf:Description> <rdf:Description rdf:about="http://grin.hq.nasa.gov/IMAGES/SMALL/GPN-2000-001171.jpg"> <j.0:imageLength>640</j.0:imageLength> <dc:date>10/11/1968</dc:date> <dc:description>Taken at Kennedy Space Center in Florida</dc:description> <j.1:depicts rdf:resource="#Apollo_7_Launch"/> <j.1:hasRegion rdf:nodeID="A0"/> <dc:creator>NASA</dc:creator> <rdf:type rdf:resource="http://www.mindswap.org/~glapizco/technical.owl#Image"/> <j.0:imageWidth>451</j.0:imageWidth> </rdf:Description> <rdf:Description rdf:about="#Apollo_7_Launch"> <j.3:launchDate>10/11/1968</j.3:launchDate> <j.3:codeName>Apollo 7 Launch</j.3:codeName> <j.3:has_shuttle rdf:resource="#Saturn_1B"/> <rdfs:label>Apollo 7 Launch</rdfs:label> <j.1:depiction rdf:resource="http://grin.hq.nasa.gov/IMAGES/SMALL/GPN-2000-001171.jpg"/> <rdf:type rdf:resource="http://semspace.mindswap.org/2004/ontologies/ShuttleMission-ont.owl#Launch"/> </rdf:Description> <rdf:Description rdf:about="#Saturn_1B"> <rdfs:label>Saturn_1B</rdfs:label> <j.1:depiction rdf:nodeID="A1"/> <rdfs:label>Saturn 1B</rdfs:label> <rdf:type rdf:resource="http://semspace.mindswap.org/2004/ontologies/System-ont.owl#ShuttleName"/> <j.1:depiction rdf:nodeID="A0"/> </rdf:Description> </rdf:RDF>
画像の低いレベルの特性を表わすためには、aceMediaビジュアル記述子オントロジーを使用できます。このオントロジーにはMPEG-7ビジュアル記述子の表現が含まれており、物体の視覚特性を記述する概念とプロパティーをモデル化します。例えば、ドミナント・カラー記述子を用いて、関心領域内に存在するドミナント・カラーの数と値、および、各関連色の値が持つピクセルの割合を記述できます。
[PhotoStuff]や[M-OntoMat-Annotizer]のような既存のツールキットは現在、グラフィカルな環境を用いて、上記のアノテーション作業を実行できます。利用者は、このようなツールを用いて、画像を読み込み、画像の部分の周辺に範囲を指定し、選択範囲における低いレベルの特性を自動的に抽出し(M-OntoMat-Annotizerによって)、選択範囲に関するステートメントを出す、などを行うことができます。さらに、その結果として作成されたアノテーションをRDF/XMLとしてエクスポートすることができ(上で示したように)、したがって、それを共有、索引付けし、アノテーションに基づく高度な閲覧(および検索可能な)環境で使用できます。
現在のセマンティック・ウェブ技術は、画像資源を含む多種多様なウェブ資源のアノテーションをサポートできる程度に一般的なものになっています。このドキュメントは、多種多様な領域のユースケースに基づいて、画像アノテーションに対するセマンティック・ウェブの言語やツールの使用例を紹介しています。マシンがよりうまく処理できるように画像にセマンティックにアノテーションを付与するために使用できる、現在利用可能ないくつかの語彙やツールについて簡潔に概観しています。セマンティック・ウェブ技術の使用は、異なるメタデータの相互運用性が重要なアプリケーションの領域や、推理タスクを実行するために明確に定義された形式的なセマンティクスに基づくメタデータを要する領域において、大きな利点があります。
それでも、改良すべきことが多くあります。一般的に受け入れられ、広く使用されている画像アノテーションの語彙はまだありません。このような語彙があれば、アプリケーション間や、複数の領域間にわたるメタデータの共有に有益でしょう。特に、画像内の部分領域を指定する標準的な方法がまだありません。さらに、セマンティック・ウェブに基づく画像アノテーションが産業的な規模で適用されるようになる前に、ツールのサポートを劇的に向上させる必要があり、そのサポートは全体の生産・流通網において統合的なものである必要があります。最後に、画像メタデータに対する多くの既存のアプローチは、セマンティック・ウェブの技術に基づいておらず、これらのアプローチをセマンティック・ウェブと相互運用可能にするためには労力を要します。
編集者は、John Smith(IBM T.J.ワトソン研究所)、Chris Catton(オックスフォード大学)およびこのドキュメントの以前のバージョンにおけるフィードバックに対し、次のワーキング・グループのメンバーに感謝申し上げます: Mark van Assem、Jeremy Caroll、Jane Hunter、Libby Miller、Guus Schreiber、およびMichael Uschold。
このドキュメントは、セマンティック・ウェブ・ベスト・プラクティスおよび開発ワーキンググループのセマンティック・ウェブにおけるマルチメディア・アノテーション・タスクフォースが作成しました。