ウェブ上のデータのベスト・プラクティス

【注意】このドキュメントは、W3CのData on the Web Best Practices W3C Recommendation 31 January 2017の和訳です。
このドキュメントの正式版はW3Cのサイト上にある英語版であり、このドキュメントには翻訳に起因する誤りがありえます。誤訳、誤植などのご指摘は、訳者までお願い致します。

要約

このドキュメントでは、自律的エコシステムのサポートに役立つことを目指した、ウェブ上でのデータの公開と利用に関するベスト・プラクティスを提供します。データは、人間と機械が発見し、理解できるべきです。データの利用時に際しては、データの最初の作成者が提供するのか外部関係者が提供するのかに関わらず、その利用方法も発見できるようになっているべきであり、データの公開者の努力も認識されるべきです。簡潔に言えば、これらのベスト・プラクティスに従うことにより、公開者と利用者の相互作用が容易になります。

このドキュメントで用いる名前空間
接頭辞	名前空間IRI	説明
dcat	http://www.w3.org/ns/dcat#	データ・カタログ語彙(DCAT)
dct	http://purl.org/dc/terms/	DCMI(Dublin Core Metadata Initiative)メタデータ語彙
dqv	http://www.w3.org/ns/dqv#	DWBPデータ品質語彙(DQV)
duv	http://www.w3.org/ns/duv#	DWBPデータセット利用語彙(DUV)
foaf	http://xmlns.com/foaf/0.1/	FOAF(Friend of a Friend)語彙
oa	http://www.w3.org/ns/oa#	ウェブ・アノテーション・オントロジー
owl	http://www.w3.org/2002/07/owl#	ウェブ・オントロジー言語(OWL)
pav	http://pav-ontology.github.io/pav/	来歴、オーサリングおよびバージョン付けオントロジー(PAV)
prov	http://www.w3.org/ns/prov#	来歴オントロジー(PROV)
rdf	http://www.w3.org/1999/02/22-rdf-syntax-ns#	RDF(Resource Description Framework)
rdfs	http://www.w3.org/2000/01/rdf-schema#	RDFスキーマ語彙(RDFS)
skos	http://www.w3.org/2004/02/skos/core#	SKOS(Simple Knowledge Organization System)

8. ベスト・プラクティス

この項には、データの公開者とデータの利用者が、ウェブ上でデータを公開し利用する時に直面する様々な課題を乗り越えるために役に立つようにデータの公開者が用いるベスト・プラクティスが含まれています。課題ごとに1つ以上のベスト・プラクティスを提案しており、それに関してはウェブ上のデータの課題の項で説明しています。

各ベスト・プラクティスは、その開発を導いたウェブ上のデータのベスト・プラクティスユースケース及び要件ドキュメント[DWBP-UCR]の1つ以上の要件に関連付けられています。各ベスト・プラクティスには、その関連性の根拠としてこれらの要件を少なくとも1つ掲載しています。

8.1 実行例

エイドリアン(Adrian)は、MyCityの交通局に勤務しており、公共交通に関するデータの公開を担当しています。エイドリアンは、アプリケーションの作成に関心のある開発者やソフトウェア・エージェントなどの様々な種類のデータの利用者にこのデータを公開したいと考えます。人間とソフトウェア・エージェントの両方がデータを容易に理解し処理できることが重要で、そのデータは、継続的に更新され、ウェブ上で容易に発見できるべきです。

一部のベスト・プラクティスを適用したRDFの例を、Turtle[Turtle]またはJSON-LD[JSON-LD]を用いて示しています。

8.2 メタデータ

ウェブは、オープンな情報空間であり、会社の内部情報システムのような特定の状況が存在しないということは、メタデータの提供が基本要件であることを意味します。十分なメタデータが提供されていなければ、公開者以外の誰かがデータを発見したり再利用したりすることはできないでしょう。メタデータは、データの利用者がデータの意味、その構造をより理解し、権利、ライセンス条項、データを作成した組織、データ品質、データ・アクセス方法、データセットの更新スケジュールなどのその他の課題を明確にするために役立つ追加情報を提供します。公開者は、人間が読める情報を複数の言語で提供し、できる限り、対象とするユーザが理解する言語で情報を提供することが推奨されます。

メタデータは、データセットの発見や再利用などの目的に役立つように用いることができ、資源の1つのプロパティーからデータセット全体または特定の組織のすべてのデータセットまでの、様々なレベルの粒度を考慮して割り当てることができます。メタデータは、様々な種類のものでもありえます。これらの種類は、様々な分類基準を用いて、様々なタクソノミーに分類できます。例えば、あるタクソノミーは、記述、構造、管理という特性に応じた3種類のメタデータを定義することができます。別のタクソノミーは、例えば、発見と再利用などの、メタデータを用いる目的に応じたスキームを用いてメタデータの種類を定義することができます。

ベスト・プラクティス1: メタデータを提供する。

人間のユーザとコンピュータ・アプリケーションの両方にメタデータを提供してください。

理由

データの公開者とデータの利用者は見知らぬ同士でありえるため、メタデータの提供は、ウェブ上でデータを公開する際の基本要件です。そして、データセットや配信を表す他の重要な側面の提供に加え、人間のユーザとコンピュータ・アプリケーションがデータを理解するのに役立つ情報を提供することが不可欠です。

意図する結果

人間はメタデータを理解でき、コンピュータ・アプリケーション、とりわけユーザ・エージェントはそれを処理できます。

可能な実装アプローチ

人間が読めるメタデータを提供するために可能なアプローチ

メタデータをHTMLのウェブ・ページの一部として提供する。
メタデータを別のテキスト・ファイルとして提供する。

機械可読なメタデータを提供するために可能なアプローチ

機械可読なメタデータは、TurtleやJSONなどのシリアル化形式で提供したり、[HTML-RDFA]や[JSON-LD]を用いてHTMLページに組み込んだりすることができます。複数の形式が別々に公開されている場合、それらは内容交渉を用いて同じURLから提供され、別々のURI(ファイル拡張子で区別される)で利用できるようにすべきです。複数の形式を維持する最良の方法は、メタデータの単一情報源を基にして、利用可能な形式をそれぞれオンザフライで作成することです。
機械可読なメタデータを定義する際に、既存の標準的な用語やよく知られている語彙を再利用することを強く推奨します。例えば、ダブリン・コア・メタデータ(DCMI)タームズ[DCTERMS]とデータ・カタログ語彙[VOCAB-DCAT]は、記述メタデータを提供するために使用できます。このような語彙は、非常に柔軟に設計されているため、欧州委員会のDCAT-APなどの、語彙の特定のプロファイルを用いると役立つことがよくあります。

検証方法

人間が読めるメタデータの記述が利用できるかを確認してください。

有効な機械可読形式で文法エラーなしにメタデータを利用できるかを確認してください。

根拠

メリット

再利用
理解
発見可能性
Processability

ベスト・プラクティス2: 記述メタデータを提供する。

データセットと配信に関する全般的な特性を記述したメタデータを提供してください。

理由

データセットに記述情報を明示的に提供することにより、ユーザ・エージェントはウェブで利用可能なデータセットを自動的に発見できるようになり、それにより、人間はデータセットとその配信の性質を理解できるようになります。

意図する結果

人間はデータセットとその配信の性質を解釈することができ、ソフトウェア・エージェントはデータセットと配信を自動的に発見することができます。

可能な実装アプローチ

記述メタデータには、データセットに関する以下の全般的な特性を含むことができます。

データセットのタイトル(title)と内容記述(description)
データセットに関するキーワード(keyword)
データセットの公開日(date of publication)
データセットを利用可能にすることに責任を持つ実体(公開者)(entity responsible (publisher))
データセットに関する窓口(contact point)
データセットの空間範囲(spatial coverage)
データセットがカバーする時間的な期間(temporal period)
データセットの最終更新日(date of last modification)
データセットがカバーするテーマ/カテゴリー(themes/categories)

記述メタデータには、配信に関する以下の全般的な特性を含むことができます。

配信のタイトル(title)と内容記述(description)
配信の公開日(date of publication)
配信のメディア・タイプ(media type)

記述メタデータの機械可読バージョンは、データセットを記述するためにW3Cが勧告している語彙、つまり、データ・カタログ語彙[VOCAB-DCAT]を用いて提供できます。これは、データセットを抽象的なエンティティーとして記述できる枠組みを提供します。

例2

機械可読

下記の例では、バス停データセット(stops-2015-05-05)に対する機械可読な発見メタデータを提供するために[VOCAB-DCAT]を用いる方法を示しています。データセットには、[VOCAB-DCAT]を用いても記述できる1つのCSV配信(stops-2015-05-05.csv)があります。データセットは、mobilityという相対URIで表されるドメイン下で分類されています。このドメインは、themesというURIで識別されるドメインの集合の一部と定義できます。概念とスキーマ概念の両方を記述するために、エイドリアンはSKOSを用いました。更新頻度を表すために、W3Cデータ・キューブ語彙の取り組みの一環として開発されたコンテンツ指向ガイドラインのインスタンスを用いました。エイドリアンは、GeonamesのURIとdata.gov.ukのTime Intervals datasetをそれぞれ用いてデータセットの例の空間と時間の範囲を記述することを選択しました。

  :stops-2015-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-05-05"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dcat:theme :mobility ;
      dcat:distribution :stops-2015-05-05.csv
      .

  :mobility
      a skos:Concept ;
      skos:inScheme :themes ;
      skos:prefLabel "Mobility"@en ;
      skos:prefLabel "Mobilidade"@pt
      .

  :themes
      a skos:ConceptScheme ;
      skos:prefLabel "A set of domains to classify documents"
      .

  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ;
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8"
      .

人間が読める

人間が読めるデータセットの記述が含まれているページの例が利用できます。

検証方法

データセットの全般的な特性が、データセット自体のメタデータに人間が読める形式で含まれているかを確認してください。

記述メタデータが、有効な機械可読形式で利用可能かを確認してください。

根拠

メリット

再利用
理解
発見可能性

ベスト・プラクティス3: 構造メタデータを提供する。

配信のスキーマおよび内部構造を記述したメタデータを提供してください。

理由

配信の内部構造に関する情報の提供は、データセットを調査したりクエリを行いたいと考えている人にとって不可欠です。これは、人がデータの意味を理解するのにも役立ちます。

意図する結果

人間はデータセットのスキーマを解釈でき、ソフトウェア・エージェントは配信を自動的に処理できます。

可能な実装アプローチ

人間が読める構造メタデータは、通常、データセットのスキーマのプロパティーまたはカラムを提供します。

機械可読な構造メタデータは、特定の配信の形式に従って利用でき、別のドキュメント内で提供するか、ドキュメントに組み込むことができます。詳細は、下記のリンクを参照してください。

表形式データ: ウェブ上の表形式データのモデルとメタデータを参照
JSON-LD: JSON-LD 1.0を参照
XML: XMLスキーマを参照
多次元データ: データ・キューブを参照

例3

機械可読

エイドリアンは、バス停データセットのCSV配信(stops-2015-05-05.csv)を公開するためにウェブ上の表形式データのモデルとメタデータを用いました。下記の例は、この配信の構造メタデータを示しています。

{
  "@context": ["https://www.w3.org/ns/csvw", {
    "@language": "en"
  }],
  "url": "http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05.csv",
  "dct:title": "CSV distribution of stops-2015-05-05 dataset",
  "dcat:keyword": ["bus", "stop", "mobility"],
  "dct:publisher": {
    "schema:name": "Transport Agency of MyCity",
    "schema:url": {
      "@id": "http://example.org"
    }
  },
  "dct:license": {
    "@id": "http://opendefinition.org/licenses/cc-by/"
  },
  "dct:issued": {
    "@value": "2015-05-05",
    "@type": "xsd:date"
  },
  "tableSchema": {
    "columns": [{
      "name": "stop_id",
      "titles": "Identifier",
      "dct:description": "An identifier for the bus stop.",
      "datatype": "string",
      "required": true
    }, {
      "name": "stop_name",
      "titles": "Name",
      "dct:description": "The name of the bus stop.",
      "datatype": "string"
    }, {
      "name": "stop_desc",
      "titles": "Description",
      "dct:description": "A description for the bus stop.",
      "datatype": "string"
    }, {
      "name": "stop_lat",
      "titles": "Latitude",
      "dct:description": "The latitude of the bus stop.",
      "datatype": "number"
    }, {
      "name": "stop_long",
      "titles": "Longitude",
      "dct:description": "The longitude of the bus stop.",
      "datatype": "number"
    }, {
      "name": "zone_id",
      "titles": "ZONE",
      "dct:description": "An identifier for the zone where the bus stop is located.",
      "datatype": "string"
    }, {
      "name": "stop_url",
      "titles": "URL",
      "dct:description": "URL that identifies the bus stop.",
      "datatype": "anyURI"
    }],
    "primaryKey": "stop_id"
  }
}

人間が読める

人間が読める構造メタデータが含まれているページの例が利用できます。

検証方法

構造メタデータが、人間が読める形式で提供されているかを確認してください。

配信のメタデータに、データセットに関する構造の情報が機械可読形式で文法エラーなく含まれているかを確認してください。

根拠

メリット

再利用
理解
Processability

8.3 データ・ライセンス

ライセンスは、ウェブ上のデータに付随する非常に有益な情報です。公開者が採用しているライセンスの種類に応じて、データの共有と再利用には、多かれ少なかれ制限がありえます。ウェブ上のデータの場合、データセットのライセンスは、メタデータ内、または、メタデータの外のリンク先の別のドキュメントで指定できます。

ベスト・プラクティス4: データ・ライセンス情報を提供する。

データの利用を管理するライセンス契約にリンクするかコピーを提供してください。

理由

ライセンス情報の存在は、データの利用者がデータの使いやすさを評価するために不可欠です。ユーザ・エージェントは、潜在的な利用者に提示するデータを含むまたは除外するきっかけとしてライセンス情報の有無を利用できます。

意図する結果

人間は、ある配信の利用に対して可能な制限を記述しているデータ・ライセンス情報を理解でき、ソフトウェア・エージェントは配信のデータ・ライセンスを自動的に検出できます。

可能な実装アプローチ

データ・ライセンス情報は、人間が読めるライセンス契約に対するリンクまたは組み込まれたコピーとして利用できます。それは、機械可読なライセンス契約に対するリンクまたは組み込まれたコピーとして処理にも利用できます。

ライセンスにリンクするためのプロパティーが含まれている下記の語彙のうち1つを使用できます。

ダブリン・コア[DCTERMS] (dct:license)
クリエイティブ・コモンズ[CCREL] (cc:license)
schema.org [SCHEMA-ORG] (schema:license)
XHTML [XHTML-VOCAB] (xhtml:license)

下記を含む、機械可読な権利言語も幾つか存在しています。

クリエイティブ・コモンズ権利表現言語[CCREL]
オープン・デジタル権利言語[ODRL-model]
オープン・データ権利ステートメント語彙[ODRS]

例4

機械可読

バス停データセットのCSV配信(stops-2015-05-05.csv)が、クリエイティブ・コモンズ表示-継承3.0非移植のライセンス下で公開されるでしょう。dct:licenseというプロパティーは、この情報を配信メタデータの一部として含むために用いています。このケースでは、ライセンスは機械可読な言語で記述されていませんが、dct:licenseというプロパティーにより、ソフトウェア・エージェントが配信のデータ・ライセンスを自動的に検出できるようになります。

  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ;
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8" ;
      dct:license <http://creativecommons.org/licenses/by-sa/3.0/>
      .

人間が読める

人間が読める配信のデータ・ライセンス情報が含まれているページの例

検証方法

データ・ライセンス情報が、データセット自体のメタデータに人間が読める形式で含まれているかを確認してください。

ユーザ・エージェントが、データセットのデータ・ライセンスを自動的に検出または発見できるかを確認してください。

根拠

関連するユースケース: R-LicenseAvailable、R-MetadataMachineRead、R-LicenseLiability

メリット

再利用
Trust

8.4 データの来歴

ウェブは、ビジネス、工学、科学のコミュニティを結び付け、以前には想像できなかった共同の機会を作り出します。ウェブ上でデータを公開する挑戦により、その起源に関する適切なレベルの詳細が提供されています。データの作成者は、必ずしもデータの公開者ではない可能性があるため、この関連するメタデータを収集して伝えることが特に重要です。来歴がないと、利用者には、共有されているデータの完全性と信頼性を信頼する方法はありません。データの公開者は、来歴の詳細がどれだけ適切なのかを知ることに対する将来的な利用者コミュニティのニーズに気づいている必要があります。

ベスト・プラクティス5: データの来歴情報を提供する。

データの起源と、行った変更に関する完全な情報を提供してください。

理由

来歴は、データセットの利用者がその品質を判断する手段の1つです。その起源と歴史を理解していると、データを信頼するかどうかを判断するのに役立ち、重要な解釈上のコンテキストを得ることができます。

意図する結果

人間はデータセットの起源と歴史を知り、ソフトウェア・エージェントは来歴情報を自動的に処理できるでしょう。

可能な実装アプローチ

データ来歴の機械可読バージョンは、W3Cの来歴オントロジー[PROV-O]などの来歴情報を記述するために勧告されているオントロジーを用いて提供できます。

例5

機械可読

下記の例は、来歴メタデータを含んだバス停データセットの機械可読なメタデータを示しています。dct:creator、 dct:publisherとdct:issuedのプロパティーは、データセットの起源に関する情報を付与するために用いています。prov:actedOnBehalfOfというプロパティーは、エイドリアンがMyCityの交通局の職務を代行したことを明示するために用いています。

  :stops-2015-05-05
      a dcat:Dataset, prov:Entity ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport", "mobility", "bus" ;
      dct:issued "2015-05-05"^^xsd:date ; 
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ; 
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
      dct:creator :adrian 
      .

  :adrian
      a foaf:Person, prov:Agent ;
      foaf:givenName "Adrian" ;
      foaf:mbox <mailto:adrian@mycitytransport.org> ;
      prov:actedOnBehalfOf :transport-agency-mycity 
      .
  :transport-agency-mycity
      a foaf:Organization, prov:Agent ;
      foaf:name "Transport Agency of Mycity"
      .

人間が読める

人間が読めるバス停データセットに関する来歴情報が含まれているページの例が利用できます。

検証方法

データセットに関する来歴情報が、データセット自体のメタデータに人間が読める形式で含まれていることを確認してください。

コンピュータ・アプリケーションが、データセットに関する来歴情報を自動的に処理できるかを確認してください。

根拠

関連要件: R-ProvAvailable、R-MetadataAvailable

メリット

再利用
理解
信頼

8.5 データ品質

データセットの品質は、それを利用するアプリケーションの品質に大きな影響を与える可能性があります。結果として、データの公開と利用の情報経路にデータ品質に関する情報を含めることが最も重要です。通常、品質の評価には様々な種類の品質次元が関わっており、それぞれが、公開者と利用者に関する特性の集合を表します。データ品質語彙[VOCAB-DQV]は、品質次元ごとに品質を評価するための測度や測定基準などの概念を定義しています。品質指標に依存した特定の評価状況(つまり、データ・コンテンツの一部、データメタ情報の一部、意図する利用に対するデータの適合性の指標となる人間による格付け)に合わせて設計されたヒューリスティックスがあります。

ベスト・プラクティス6: データ品質情報を提供する。

特定の目的に対するデータ品質と適合性に関する情報を提供してください。

理由

データ品質は、元々作成された目的と非常に異なるアプリケーションなどの、特定のアプリケーションに対するデータの適合性に深刻な影響を与える可能性があります。データ品質をドキュメント化すると、データセットの選択プロセスがかなり容易になり、再利用の機会が増えます。領域固有の特異性とは別に、データ品質をドキュメント化し、既知の品質上の課題をメタデータで明示すべきです。

意図する結果

人間とソフトウェア・エージェントは品質を評価でき、そのため、そのアプリケーションに対するデータセットの適合性を評価することができます。

可能な実装アプローチ

データセット品質メタデータの機械可読バージョンは、DWBPワーキンググループが開発したデータ品質語彙[VOCAB-DQV]を用いて提供できます。

例6

機械可読

下記の例は、データ品質メタデータを含んだバス停データセットのCSV配信のメタデータを示しています。メタデータはデータ品質語彙に従って定義しました。さらなる例がデータ品質語彙ドキュメント[VOCAB-DQV]に含まれている可能性があります。

  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dcat:downloadURL <http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05.csv> ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ;
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8" ;
      dct:license <http://creativecommons.org/licenses/by-sa/3.0/> ;
      dqv:hasQualityMeasurement :measure1, :measure2  
      .
  :measure1
      a dqv:QualityMeasurement ;
      dqv:computedOn :stops-2015-05-05.csv ;
      dqv:isMeasurementOf :downloadURLAvailabilityMetric ;
      dqv:value "true"^^xsd:boolean 
      .
  :measure2
      a dqv:QualityMeasurement ;
      dqv:computedOn :stops-2015-05-05.csv ;
      dqv:isMeasurementOf :csvCompletenessMetric ;
      dqv:value "0.5"^^xsd:double 
      .

#definition of dimensions and metrics
  :availability
      a dqv:Dimension ;
      skos:prefLabel "Availability"@en ;
      skos:definition "Availability of a dataset is the extent to which data (or some portion of it) is present, obtainable and ready for use."@en ;
      dqv:inCategory :accessibility 
      .
  :completeness
      a dqv:Dimension ;
      skos:prefLabel "Completeness"@en ;
      skos:definition "Completeness refers to the degree to which all required information is present in a particular dataset."@en ;
      dqv:inCategory :intrinsicDimensions	
      .
  :downloadURLAvailabilityMetric
      a dqv:Metric ;
      skos:definition "It checks if dcat:downloadURL is available and if its value is dereferenceable."@en ;
      dqv:inDimension :availability
      .
  :csvCompletenessMetric
      a dqv:Metric ;
      skos:definition "Ratio between the number of objects represented in the cvs and the number of objects expected to be represented according to the declared dataset scope."@en ;
      dqv:inDimension :completeness
      .

人間が読める

人間が読めるデータ品質情報が含まれているページの例

検証方法

データセットに関する品質情報が、データセット自体のメタデータに含まれていることを確認してください。

コンピュータ・アプリケーションが、データセットに関する品質情報を自動的に処理できるかを確認してください。

根拠

メリット

再利用
信頼

8.6 データのバージョン付け

ウェブ上で公開されたデータセットは、時間の経過とともに変わる可能性があります。スケジュールに従ってデータセットが更新される場合もあれば、データ収集時の改善により更新する価値が生じた時にデータセットが変更される場合もあります。これらの変更に対応するために、新しいバージョンのデータセットを作成することができます。残念ながら、データセットへの変更は、新しいバージョンではなく、まったく別のデータセットとみなすべきであるというコンセンサスはありません。下記では、改訂を既存のデータセットの新しいバージョンと見なすことにほとんどの公開者が同意するだろうと思われるシナリオをいくつか示しています。

シナリオ1: 新しいバス停が設けられたため、データセットに追加すべきである。
シナリオ2: 既存のバス停が撤去されたため、データセットから削除すべきである。
シナリオ3: データセットに格納されている既存のバス停の1つでエラーが確認され、そのエラーを訂正しなければならない。

一般的に、領域や年が異なる同種のデータなどの、時系列または空間系列を表す複数のデータセットは、同じデータセットの複数のバージョンであると見なされません。その場合、各データセットは、世界に関する異なる見解をカバーしており、新しいデータセットとして扱うべきです。これは、ある都市の週間天気予報のデータを収集したデータセットである場合もあり、その場合、その特定の週のデータを格納するために新しいデータセットが毎週作成されます。

シナリオ1とシナリオ2はメジャー・バージョンのきっかけとなりますが、シナリオ3はマイナー・バージョンのみのきっかけとなります。しかし、バージョンがマイナーかメジャーかをどのように判断するかは、バージョン表示の値を増やさずに変更を行うことを避けるより重要ではありません。データセットを信頼できるものにするためには、小さな変更であっても異なるデータセットのバージョンを記録することが重要です。公開者は、あるデータセットを1人以上のデータの利用者が利用している可能性があることを忘れないようにすべきであり、新しいバージョンをリリースした時に、妥当な措置を講じて利用者に知らせるべきです。リアルタイムのデータの場合、自動化されたタイム・スタンプをバージョンの識別子として提供できます。データセットごとに、公開者はバージョン付けに一貫性のある有益なアプローチを取るべきであり、それにより、データの利用者は変化するデータを理解して処理できます。

ベスト・プラクティス7: バージョン表示を提供する。

データセットごとにバージョン番号や日付を割り当てて示してください。

理由

バージョン情報によって、データセットの改訂を一意に識別できるようになります。データの利用者は、一意性を利用して、時間の経過とともにデータが変更されたかどうか、またどのように変更されたのかを判断し、利用しているデータセットのバージョンを特定することができます。データのバージョン付けが適切であれば、利用者は新しいバージョンのデータセットが利用可能かどうかを把握できます。明示的なバージョン付けは、研究における再現性を可能にし、比較を可能にし、混同を防止します。標準化されたアプローチに従った一意のバージョン番号を用いることで、バージョンの違いに関する利用者の期待値を設定することもできます。

意図する結果

人間とソフトウェア・エージェントは、利用しているデータセットのバージョンを容易に判断できます。

可能な実装アプローチ

バージョン付け情報を提供するための最良の方法は、状況によって異なりますが、下記のような、従うことができる基本的なガイドラインがあります。

データセットのメタデータの一部として一意のバージョン番号または日付を含める。
[SchemaVer]のような、数を増やしていくという有意義なアプローチで、一貫した番号付けスキームを用いる。
APIでデータを利用できる場合、最新バージョンのデータをリクエストするために用いるURIは、バージョンの変更に伴って変更されるべきではないが、APIで特定のバージョンをリクエストすることが可能であるべき。
Memento[RFC7089]またはそのコンポーネントを用いて、データセットの時間的なバージョン付けを表現し、特定のdatetimeで稼動していたバージョンにアクセスする。Mementoプロトコルは、下記のW3C仕様で採用している、バージョンにURIを割り当てるアプローチと密接な関連がある。

ウェブ・オントロジー言語[OWL2-QUICK-REFERENCE]と、来歴、オーサリングおよびバージョン付けオントロジー[PAV]は、バージョン情報のためのアノテーション・プロパティーをいくつか提供しています。

例7

機械可読

下記の例は、バージョン付けメタデータを含んだバス停のメタデータを示しています。owl:versionInfoとpav:versionのプロパティーは、データセットのバージョンを示すために用いています。

  :stops-2015-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-05-05"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
      dct:creator :adrian ;
      owl:versionInfo "1.0" ; 
      pav:version "1.0" 
      .

Mementoを用いる

想定:

http://data.mycity.example.com/transport/dataset/bus/stopsは、現在のバージョンのデータセットを常に利用できる「汎用URI」です。
http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17は、現在のデータセットのバージョン付きURIです。
http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05は、以前のバージョンのデータセットのバージョン付きURIです。

Mementoプロトコルでは、バージョン付きURIは、HTTP応答ヘッダ情報を提供して、そのバージョンのdatetimeとその汎用URIとの関係を表します。

curl -I http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17

HTTP/1.1 200 OK
Memento-Datetime: Thu, 17 Dec 2015 00:00:00 GMT
Link:<http://data.mycity.example.com/transport/dataset/bus/stops>;
rel=“original”

汎用URIはTimeGateへのリンクを提供します。これは、指定されたdatetimeで運用されているデータセットのバージョンを判断するための手段として、datetime交渉をサポートします。汎用URIはバージョン付けされていないため、ヘッダではバージョンのdatetimeは提供されません。

curl -i -H http://data.mycity.example.com/transport/dataset/bus/stops

HTTP/1.1 200 OK
Link: <http://data.mycity.example.com/transport/dataset/bus/timegate/stops>;
rel=“timegate”

バージョン付きURIは、TimeGateへのリンクを提供することもできます。

curl -I http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05

HTTP/1.1 200 OK
Memento-Datetime: Tue, 05 May 2015 00:00:00 GMT
Link: <http://data.mycity.example.com/transport/dataset/bus/stops>;
rel=“original”,
 <http://data.mycity.example.com/transport/dataset/bus/timegate/stops>;
rel=“timegate”

これは、クライアントが2015年6月20日に運用されていたデータセットのバージョンを判断する方法です。

curl -I -H "Accept-Datetime: Sat, 20 Jun 2015  12:00:00 GMT" http://data.mycity.example.com/transport/dataset/bus/timegate/stops

HTTP/1.1 302 Found
Vary: accept-datetime
Location: http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05
Link: <http://data.mycity.example.com/transport/dataset/bus/stops>
rel="original"

人間が読める

人間が読めるデータのバージョン付け情報が含まれているページの例

検証方法

データセット／配信のメタデータが、一意のバージョン番号や日付を人間が読める形式で提供しているかを確認してください。

コンピュータ・アプリケーションが、データセットや配信の一意のバージョン番号または日付を自動的に検出／発見し、処理できるかを確認してください。

根拠

メリット

再利用
信頼

ベスト・プラクティス8: バージョン履歴を提供する。

各バージョンに行われた変更について記述した完全なバージョン履歴を提供してください。

理由

データを利用するアプリケーションを作成する場合、時間の経過に伴うデータの変動性を理解していることは有益でありえます。データの解釈は、その変遷を理解することでも深まります。相違点の要約が提供されていなければ、異なるバージョンのデータセットがお互いにどのように異なっていかを判断することは通常、非常に困難です。

意図する結果

人間とソフトウェア・エージェントは、一般的にデータセットがバージョンごとにどのように変化するのか、2つの特定のバージョンがどのように異なるのかを理解できます。

可能な実装アプローチ

公開されているバージョンのリストと、以前のバージョンとの違いをバージョンごとに説明した記述を提供してください。APIは、全履歴の中から最新バージョンを取得する1つの専用のURLでバージョン履歴を公開できます。

例8

機械可読

新しいバス停が設けられ、データを最新の状態に保つために新しいデータセット(stops-2015-12-17)が公開されたとします。新しいデータセットはstops-2015-05-05というバージョンの1つです。新しいデータセットの機械可読なメタデータを、対応するバージョン付けの履歴情報とともに下記で示しています。

  :stops-2015-12-17
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-12-17"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
      dct:creator :adrian ;
       ...
      dct:isVersionOf :stops-2015-05-05 ;
      pav:previousVersion :stops-2015-05-05 ;
      rdfs:comment "The bus stops dataset was updated to reflect the creation of a new bus stop at 1115 Pearl Street." ;
      owl:versionInfo "1.1" ;
      pav:version "1.1" 
      .

Mementoを用いる:

想定:

http://data.mycity.example.com/transport/dataset/bus/stopsは、現在のバージョンのデータセットを常に利用できる「汎用URI」です。
http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17は、現在のデータセットのバージョン付きURIです。
http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05は、以前のバージョンのデータセットのバージョン付きURIです。
http://example.org/stops-2015-01-01は、データセットの最初のバージョン付きURIです。

バージョン付きURI、汎用URI、およびTimeGateは、データセットのすべての時間的なバージョンの概要を提供するTimeMapへのリンクを提供できます。

curl -I http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05

HTTP/1.1 200 OK
Memento-Datetime: Tue, 05 May 2015 00:00:00 GMT
Link: <http://data.mycity.example.com/transport/dataset/bus/stops>;
rel=“original”,
 <http://data.mycity.example.com/transport/dataset/bus/timemap/stops>;
rel=“timemap”;
 type="application/link-format"

これは、TimeMapの取得方法です。

curl -I http://data.mycity.example.com/transport/dataset/bus/timemap/stops

HTTP/1.1 200 OK
Content-Type: application/link-format

<http://data.mycity.example.com/transport/dataset/bus/stops>;rel="original”,
<http://data.mycity.example.com/transport/dataset/bus/timegate/stops>;rel="timegate”,
<http://data.mycity.example.com/transport/dataset/bus/timemap/stops>;rel="timemap”;
 type="application/link-format",
<http://data.mycity.example.com/transport/dataset/bus/stops-2015-01-01>;
rel=“first memento"; datetime="Thu, 01 Jan 2015 00:00:00 GMT",
<http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05>;
rel=“memento"; datetime=“Tue, 05 May 2015 00:00:00 GMT"
<http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-07>;
rel=“last memento"; datetime="Thu, 17 Dec 2015 00:00:00 GMT"

バージョン付きURIは、他のデータセットのバージョンとの関係に関する情報を提供できます。

curl -I http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05

HTTP/1.1 200 OK
Memento-Datetime: Tue, 05 May 2015 00:00:00 GMT
Link: <http://data.mycity.example.com/transport/dataset/bus/stops>;
rel=“original”,
 <http://data.mycity.example.com/transport/dataset/bus/stops-2015-01-01>;
rel=“prev first memento";
 datetime="Thu, 01 Jan 2015 00:00:00 GMT",
 <http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17>;
rel=“next last memento";
 datetime="Thu, 17 Dec 2015 00:00:00 GMT"

人間が読める

人間が読めるデータのバージョン付け履歴情報が含まれているページの例。

検証方法

公開されたバージョンの一覧が利用可能であることと、各バージョンが前のバージョンとどのように異なるかを正確に記述した変更履歴があることを確認してください。

根拠

メリット

再利用
信頼

8.7 データ識別子

識別子は多くの形式を取り、あらゆる情報システムで広く利用されています。ウェブ上でのデータの発見、利用、引用は、HTTP(またはHTTPS)のURI(インターネットを介して逆参照することによって参照できるグローバルに一意な識別子[RFC3986])の利用に根本的に依存します。現在の状況において、URIに関するいくつかのキーポイントを強調することはおそらく価値があるでしょう。

URIは「ダム文字列」です。つまり、意味を持ちません。その機能は、単に資源を識別することのみです。
前項目は正確ですが、http://example.com/dataset.csvなどのURIがCSVファイル以外のものを返すのはひねくれているでしょう。人間が読めることは有益です。
逆参照(検索)すると、1つのURIが複数の形式で同じ資源を提供する可能性があります。http://example.com/datasetは、同じデータをCSV、JSON、XMLなどで提供することがありえます。サーバーは、内容交渉に基づいて最も適切な形式を返します。
1つのURIは別のURIにリダイレクトすることがあります。
URIを逆参照すると、1つの静的なファイルを返などのシンプルな処理を行うサーバーでコンピュータ・プログラムが実行されるか、複雑な処理が実行される可能性があります。正確に実行される処理、つまり、サーバー上のソフトウェアは、URI自体とはまったく無関係です。

ベスト・プラクティス9: 永続的URIをデータセットの識別子として用いる。

慎重に選択した永続的なURIで各データセットを識別してください。

理由

共通的な識別体系を採用することで、あらゆるステークホルダーが、信頼性の高い方法で基本的なデータの識別と比較プロセスを行うことが可能となります。これらは適切なデータ管理と再利用の前提条件です。

開発者はURIをコードに組み込むことができるため、そのURIが永続的で、時間が経過しても人間が介在する必要なく同じ資源に逆参照できることが重要です。

意図する結果

データセットのステータス、可用性や形式に関係なく、データセットやデータセットに関する情報を長年にわたって発見でき、引用できるでしょう。

可能な実装アプローチ

永続的であるためには、URIをそのように設計しなければなりません。このトピックに関する著述は多く、例えば、欧州委員会の永続的URIに関する研究[PURI]を参照してください。他の多くの資源へのリンクが含まれています。

データの公開者が、永続性のためにURI空間を直接管理できない、または管理したくない場合は、ウェブの永久的識別子やpurl.orgなどのリダイレクト・サービスを利用する方法もあります。これらは、必要に応じてリダイレクト可能な永続的なURIを提供するため、最終的なロケーションは一時的なものであっても構いません。そのようなサービスの背後にあるソフトウェアは、自由に利用できるため、必要に応じてローカルにインストールして運用することができます。

デジタルオブジェクト識別子(DOI)は同様の代替手段を提供します。この識別子は、いかなるウェブ技術とも関係なく定義されますが、「URIスタブ」に追加することができます。DOIは、研究データや図書館にとって重要なデジタル基盤要素です。

例9

http://data.mycity.example.com/transport/dataset/bus/stopsというURIには、永続性を支えるいくつかの機能があります。

すべての名前は時間の経過とともに変わる可能性がありますが、ドメイン名の選択時に、MyCityが存在し続け、それには行政機関があり続けるだろうとエイドリアンが想定することは妥当です。したがって、ユーゴスラビアのようなケースでは、国名すらも変わり、トップ・レベル・ドメインが消えることが証明されていますが(.yuのように)、都市の名前に基づくドメイン名はいかなるドメイン名であっても永続的です。
エイドリアンは、data.mycity.example.comというサブドメインにデータを置くことにより、特定の部門と関係なく運用できる特定のドメインを作成します。
特定の部門が存続すると想定するのは安全ではありません。MyCityの当局が、運輸環境局を創設するために、交通局と他の機関を合併させるべきであると決定する可能性は非常に高いかもしれません。したがって、交通局の名前をURIに含めるのではなく、データの提供元のタスク(この場合は公共交通を提供するというタスク)を含めるのが適切です。
/datasetというパス・セグメントは、URIが、例えば特定のバス路線ではなく、データセットを識別しているということを示します。
同様に、/busというパス・セグメントで、エイドリアンが担当している特定のデータセットに辿りつけます。
最後に、/stopsで、MyCityのバス停に関するデータセットに導かれます。
DCATの用語では、これはデータセットの識別子でしょう。データセットの特定の配信は、http://data.mycity.example.com/transport/dataset/bus/stops.csv、http://data.mycity.example.com/transport/dataset/bus/stops.json、http://data.mycity.example.com/transport/dataset/bus/stops.ttlのように、関連するファイル拡張子をURIに追加することで識別される可能性が高いです。

検証方法

各データセットが、永続性を目的として設計されたURIで識別されていることを確認してください。理想的には、公開者が自身でURI空間を維持できなくなった場合に備えて、関連するウェブ・サイトに、設計スキームの記述と永続性に関する信頼できる誓約を含むのが良いでしょう。

根拠

関連要件: R-UniqueIdentifier、R-Citable

メリット

再利用
Linkability
発見可能性
相互運用性

ベスト・プラクティス10: 永続的URIをデータセット内の識別子として用いる。

可能であれば、他の人のURIをデータセット内の識別子として再利用してください。

理由

ウェブのパワーは、ネットワーク効果にあります。最初の電話は、2番目の電話が、電話すべき相手が存在するということを意味したときに初めて有用となりました。3番目の電話はそれらの両方をさらに有用にしました。データは、同じもの、同じ場所、同じ概念、同じ出来事、同じ人などに関する他の人のデータを参照すると、その価値がより高まります。これは、データセット全体で同じ識別子を用い、識別子が他のデータセットによって参照できることを確認することを意味します。この識別子がHTTP URIであれば、検索可能であり、より多くのデータを発見できます。

これらの考えは、1つのデータ・ポイントが別のデータ・ポイントにリンクされる5つ星リンクト・データや、リンクが、何らかの方法でデータに作用したり関連したりする可能性があるデータやサービスにさらにリンクされうるハイパーメディアの中心をなすものです。

これがデータのウェブです。

意図する結果

データ項目は、ウェブ上で関連付けられ、人間と機関が同じようにアクセスできるグローバルな情報空間を作成します。

可能な実装アプローチ

これは単なる話の種であり、このような一般的なドキュメントには、表面的な詳細しか含めることができません。

開発者は、彼らが解決しようとしている問題は、他の人々によって解決済みであることが非常に多いだろうということを知っています。同じように、国、通貨、主題、種、たんぱく質、都市と地域、ノーベル賞受賞者、製品などのなどの明白な物の識別子を探しているなら – すでに誰かがそれを行っています。既存の語彙を発見するために記述された手順[LD-BP]であれば、容易に適合させることができます。

利用するURIが、信頼できるグループや組織によって公開されていることを確保する。
URIが永続的URIを有していることを確保する。

ニーズを満たす既存の識別子が見つからない場合は、他の人があなたのデータにリンクして価値を追加するように、URIの永続性のパターンに従って自分で作成する必要があります。

例10

以前のベスト・プラクティスで例として挙げたURI(http://data.mycity.example.com/transport/dataset/bus/stops)は、データセットを識別します。このURIの大部分は、バス停、路線、および特定のサービスで用いられるバスの種類を識別するために再利用できます。例えば、「Airport - Bullfrog」という路線に適した永続的URIは次のようになります。

http://data.mycity.example.com/transport/route/bus/id/AB

これは、データセットと同じ初期構造を持っていますが、識別されている物の種類がバス路線であることを人間が理解できるように、/datasetではなく、/routeというパス・セグメントが含まれています。/idセグメントは、そのURIが情報資源ではないもの、つまり、インターネットでは検索できないものを識別し、/ABは、実際のバス路線のローカル識別子であることを示します。これは、GS1のSmartSearch実装ガイドライン[GS1]のアドバイスと一致しており、このガイドラインには、製品、場所などに標準的な識別子が用いられていれば、その用いられている種類の識別子をURIに含むことが推奨されると書かれています。例えば、製品を識別するためにGTINが用いられている場合、URIの形式はhttp://data.myproduct.example.com/gtin/05011476100885であるべきです。情報以外の資源のURIを逆参照すると、http://data.mycity.example.com/transport/route/bus/doc/ABなどの類似するURLにHTTP 303リダイレクトされるはずで、これは、ABというバス路線について説明している、つまり、それに関する情報を提供しています(/idを/docに置き換えていることに注意)。データのURL(URLs in Data)に関するJeni Tennison氏の記事では、この[URLs-in-data]の話題に関して詳細に説明されています。

このアドバイスを提案するに当たり、URIが長くなる可能性があることが認識されています。適度なサイズのデータセットであっても、各URIを格納することは反復的であり、明らかに無駄である可能性が高いです。代わりに、各要素(この例ではABなど)にローカルに一意な識別子を定義し、それをプログラム的にグローバルに一意なURIに変換できるようしてデータを提供してください。表形式データのためのメタデータ語彙[Tabular-Metadata]は、特にabout URLプロパティーなどのURIテンプレート・プロパティーを用いて、CSVファイルなどの表形式データ内でこれを行うメカニズムを提供します。

検証方法

データセット内で、国、地域、組織や人などの、変わらないものやゆっくりと変わるものへの参照が、URIやURIスタブに追加できる短い識別子で参照されることを確認してください。理想的には、URIは解決すべきですが、解決するかどうかに関わらず、URIはグローバルな範囲の変数として価値があります。

根拠

メリット

再利用
Linkability
発見可能性
相互運用性

ベスト・プラクティス11: データセットのバージョンとシリーズにURIを割り当てる。

全体のシリーズのみでなくデータセットの個々のバージョンにもURIを割り当ててください。

理由

ドキュメントと同様に、多くのデータセットは自然なシリーズまたはグループに分類されます。例えば次のとおりです。

MyCityのバス停(時間の経過とともに変わる)
MyCityの選出された職員のリスト
完結するまで変化するドキュメントのバージョン

様々な状況において、現在の状況(現在のバス停、現在選出されている職員など)を参照することが適切でしょう。他方で、特定時期に存在していた状況を参照するのが適切な場合もあります。

意図する結果

人間とソフトウェア・エージェントは、特定のバージョンのデータセットや、「データセット・シリーズ」や「最新バージョン」などの概念を参照することができます。

可能な実装アプローチ

W3Cは、これを行う方法の良い例を提供しています。このドキュメントの(永続的な)URIは、https://www.w3.org/TR/2016/PR-dwbp-20161215/です。この識別子は、ドキュメントを公開した日の不変的なナップショットを指し示します。このドキュメントの「最新バージョン」のURIは、時間の経過とともに変わる可能性がある密接に関連する一連のドキュメントの識別子であるhttps://www.w3.org/TR/dwbp/です。公開時には、これらの2つのURIの解決先は両方ともこのドキュメントです。しかし、このドキュメントの次のバージョンが公開されると、「最新バージョン」のURIはそれを指し示すように変更されますが、日付が付いたURIは変更されないままとなります。

例11

新しいバス停が設けられたとします。stops-2015-05-05を最新の状態に保つために、新しいバージョンのデータセット(stops-2015-12-17)を作成します。stops-2015-12-17には、stops-2015-05-05のすべてのデータと新しいバス停に関するデータが含まれています。2つのバージョンは、次のURIで識別できます。

http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05は、データセットの最初のバージョンのバージョン付きURIです。

http://data.mycity.example.com/transport/dataset/bus/stops-2015-12-17は、更新後のバージョンのデータセットのバージョン付きURIです。

http://data.mycity.example.com/transport/dataset/bus/stopsは常に最新バージョンに解決されるため、サーバーの設定が更新されて、そのURLを指し示すようになる2015年12月17日まではstops-2015-05-05に解決されます。

検証方法

データセットの各バージョンに独自のURIがあり、「最新のバージョン」のURIもあることを確認してください。

根拠

関連要件: R-UniqueIdentifier、R-Citable

メリット

再利用
発見可能性
信頼

8.8 データ形式

データが利用者に利用可能となる形式は、そのデータを利用できるようにする際の重要な側面です。世界で最も優れた、最も柔軟性のあるアクセス・メカニズムであっても、利用および再利用を可能にする形式でデータを提供しないと意味がありません。下記では、ファイルと個々のフィールドの両方のレベルで、データの形式を選択する際のベスト・プラクティスについて詳しく説明しています。W3Cは、できる限り広い対象者が利用し、コンピューティング・システムが最も容易に処理できる形式の利用を推奨します。最終的な公開形式を生成するために用いられるデータベース・ダンプやスプレッドシートなどの情報源形式は範囲外です。このドキュメントは、公開するデータを生成するために用いる内部システムではなく、実際に公開するデータに関するものです。

ベスト・プラクティス12: 機械可読な標準化されたデータ形式を用いる。

意図する利用や潜在的な利用に適した、機械可読な標準化されたデータ形式でデータを利用できるようにしてください。

理由

データがよりユビキタスになり、データセットがより大きくより複雑になるにつれ、コンピュータによる処理がますます重要になります。機械可読ではない形式でデータを掲載すると、データの継続的な有用性に大きな制限が課されます。データは、処理されて情報に変換された時に役立ちます。人間がコンピュータを用いて読んだり編集したりできる形式と、機械可読な形式との間には大きな違いがあることに注意してください。後者の用語は、データがコンピュータによって容易に抽出、変換、処理されることを意味します。

標準ではないデータ形式を用いると、コストがかかり、非効率的であり、データの変換時に意味が失われる可能性があります。対照的に、標準化されたデータ形式は、相互運用性に加え、その多くをデータが最初に公開された時には予期できなかったリミックスや視覚化などの将来の利用を可能にします。また、機械可読な標準化された形式のほとんどはロケールに依存しない(locale-neutral)ことに注意することも重要です。

意図する結果

機械は、ウェブ上で公開されたデータを容易に読んで処理することができ、人間は、関連するドメインで通常利用できるコンピュータ処理ツールを用いてデータを処理できます。

可能な実装アプローチ

CSV、XML、HDF5、JSON、およびR、DF/XML、JSON-LD、TurtleなどのRDFシリアル化構文を含むがこれらに限定されない、容易に解析できる機械可読な標準化されたデータ形式でデータを利用できるようにしてください。

例12

エイドリアンは、ウェブ上では表形式のデータが一般的に用いられていることを知っており、バス停データセットの配信のデータ形式の1つとしてCSVを用いることに決めました。データ処理を容易にするために、彼は、CSV配信(stops-2015-05-05.csv)を公開するためにウェブ上の表形式データのモデルとメタデータを用います。下記の例は、例3で定義している構造メタデータに準拠したCSV配信の断片を表しています。

Identifier,Name,Description,Latitude,Longitude,ZONE,URL 
345,Castle Avenue,Sunset Drive,-3.731862,-38.526670,x20,http://data.mycity.example.com/transport/road/bus/stop/id/345
483,Main Street,Lily Park,-3.731541,-38.535157,x20,http://data.mycity.example.com/transport/road/bus/stop/id/483

検証方法

データ形式が、既知の機械可読なデータ形式仕様に準拠しているかを確認してください。

根拠

メリット

再利用
Processability

ベスト・プラクティス13: ロケールに依存しないデータ表現を用いる。

ロケールに依存しないデータ構造と値を用いるか、それが可能でない場合は、データ値で用いるロケールに関するメタデータを提供してください。

理由

機械可読で、特定の言語や文化に特化していないデータ値は、多様な文化的表現の1つを用いた値よりも耐久性があり、誤解されにくいです。日付、通貨、数などは同じように見えるかもしれませんが、異なるロケールでは意味が異なります。例えば、4/7という「日付」は、データが作成された場所によって、4月7日と読まれたり7月4日と読まれたりする可能性があります。同様に、€2,000は、2000ユーロか、2ユーロの厳密な表現かのどちらかです。ロケールに依存しない形式を用いることにより、システムが、ユーザの言語や場所によって異なる特定の交換規則を設定する必要性がなくなります。データがすでにロケール固有の形式である場合、ロケール・パラメータを提供してロケールと言語を明示することにより、ユーザは、どれくらい容易にデータを処理できるかや、自動翻訳サービスを有効とすることができるかを判断できます。

意図する結果

人間とソフトウェア・エージェントは、日付、時刻、通貨、数などを表す文字列の意味を正確に解釈することができます。

可能な実装アプローチ

最も一般的なデータのシリアル化形式はロケールに依存しません。例えば、xsd:integerやxsd:dateなどのXMLスキーマの型は、ロケールに依存しないデータ交換を目的としています。ロケールに依存しない表現を用いることにより、複雑な解析や誤解なしにデータ値を正確に処理できるようになり、任意のロケールのデータの利用者にとって最も快適な形式でデータを表示できるようにもなります。例えば、「€2000,000」を文字列として格納するのではなく、下記のようにデータ構造を交換することが強く望まれます。

…
"price" {
    "value": 2000.00,
    "currency": "EUR"
}
…

一部のデータセットには、ロケールに依存しない形式で表示されなかったり、表示できなかったりする値が含まれています。これは特に自然言語のテキストの値に当てはまります。ロケールの影響を受けたテキストや自然言語のテキストを含むことができる個々のデータ・フィールドには、データの言語とロケールを示すために用いる関連する言語タグがあるべきです。このロケール情報は、データの解析や、利用者による値の適切な提示と処理を確保するために利用できます。BCP47[BCP47]は、言語とロケールの識別のための標準を提供します。また、参考情報として、CLDR[CLDR]は、特定のローカライズされた形式を表す場合と、特定のロケール・データ値に対する参照として表す場合の両方のための情報源です。

例13

機械可読

下記の例は、ロケール・パラメータ・メタデータが含まれているバス停データセット(stops-2015-05-05)の機械可読なメタデータを示しています。dct:languageというプロパティーは、データセットが公開されている言語を宣言するために用いています。データセットが複数の言語で利用できる場合は、プロパティーに複数の値を用いてください。dct:conformsToというプロパティーは、日付と時刻の形式に採用されている標準を指定するために用いています。

  :stops-2015-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-05-05"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dcat:theme :mobility ;
      dcat:distribution :stops-2015-05-05.csv ;
      dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ,
                   <http://id.loc.gov/vocabulary/iso639-1/pt> ;
      dct:conformsTo <http://www.iso.org/iso/home/standards/iso8601.htm>
      .

下記の例は、バス運賃データのロケールに依存しない表現を示しています。

  fare_id,price,currency_type,payment_method,transfers,transfer_duration
  p,1.25,USD,0,0,0
  a,5.25,USD,0,0,0

人間が読める

人間が読めるデータセットの記述が含まれているページの例が利用できます。

検証方法

ロケールに依存する(locale-sensitive)データ値がロケールに依存しない形式で表されていることを確認してください。それが不可能な場合は、関連するロケール・メタデータが提供されているかを確認してください。

根拠

メリット

再利用
理解

ベスト・プラクティス14: 複数の形式でデータを提供する。

意図されている利用や潜在的な利用に複数の形式が適している場合、データを複数の形式で利用できるようにしてください。

理由

複数の形式でデータを提供すると、データ変換で発生するコストが削減されます。これにより、変換プロセスでエラーが発生する可能性も最小限に抑えられます。多くのユーザがデータを特定のデータ形式に変換する必要がある場合は、最初からその形式でデータを公開すると、時間と費用が節約され、エラーが何度も防止されます。最終的には、データを処理できるツールとアプリケーションの数が増えます。

意図する結果

できる限り多くのユーザが、自身にとって望ましい形式に変換する必要なく、データを利用できるようになるでしょう。

可能な実装アプローチ

将来的に必要とされる可能性が最も高いデータ形式と、有用となる可能性が高い選択肢を検討してください。データの公開者は、多くの形式でデータを利用できるようにするために必要な努力と、そのためのコストとのバランスを取らなければなりませんが、少なくとも1つの選択肢を提供すると、データの使いやすさは大きく向上するでしょう。複数の形式でデータを提供するためには、複数の形式で利用できるデータを提供するために内容交渉を用いるというベスト・プラクティスで説明しているとおり、内容交渉を利用できます。

忠告: URIのフラグメント識別子として公開される可能性があるデータセット内のローカル識別子は、様々な形式にまたがって一貫性がなければなりません。

例14

より多くのデータの利用者に届くように、エイドリアンは、バス停データセットのJSON配信も提供することにしました。次の例では、stops-2015-05-05というデータセットをその2つの配信であるstops-2015-05-05.csvとstops-2015-05-05.jsonに関連付けるためにdcat:distributionというプロパティーを用いています。

  :stops-2015-05-05
      a dcat:Dataset ;
      dcat:distribution :stops-2015-05-05.csv ;
      dcat:distribution :stops-2015-05-05.json
      .
  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dcat:downloadURL <http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05.csv> ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ;
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8" ;
      dct:license <http://creativecommons.org/licenses/by-sa/3.0/>
      .
  :stops-2015-05-05.json
      a dcat:Distribution ;
      dcat:downloadURL <http://data.mycity.example.com/transport/dataset/bus/stops-2015-05-05.json> ;
      dct:title "JSON distribution of stops-2015-05-05 dataset" ;
      dct:description "JSON distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "application/json" ;
      dct:license <http://creativecommons.org/licenses/by-sa/3.0/>
      .

検証方法

完全なデータセットが複数のデータ形式で利用できるかを確認してください。

根拠

メリット

再利用
Processability

8.9 データ語彙

語彙は、関心領域を記述し表現するために用いられる概念および関係(「用語」や「属性」とも呼ばれる)を定義します。これらは、特定のアプリケーションで利用できる用語を分類し、可能な関係の特性を示し、それらの用語を利用する際の制約を定義するために用いられます。オントロジー、統制語彙、シソーラス、タクソノミー、コード一覧、セマンティック・ネットワークなど、「語彙」に対していくつかの同義語が作り出されています。

これらの名前で参照されるアーティファクトの間に厳密な区別はありません。しかし、「オントロジー」は、(リンクされた)データセットの資源の記述を構造化するクラスとプロパティーの語彙を示す傾向があります。リレーショナル・データベースでは、これらは表とカラムの名前に対応しており、XMLでは、これらはXMLスキーマで定義される要素に対応しています。オントロジーは、セマンティック・ウェブにおける推論技術の重要な構成要素です。オントロジーを作成するためにW3Cが提供している最初の手段は、RDFスキーマ[RDF-SCHEMA]言語です。ウェブ・オントロジー言語[OWL2-OVERVIEW]のような言語を用いて公理を追加し、より表現力のあるオントロジーを定義することができます。

一方で、「統制語彙」、「概念スキーム」、「知識組織化体系」は、前者の種類の語彙、つまり、(リンクされた)データセットの資源の記述を構造化する語彙で作られた記述に使用できる資源を列挙し、定義します。シソーラスの概念、例えば「アーキテクチャ」は、書籍について記述するために主題フィールドなどで用いられます(書籍に対する「主題」がオントロジーで定義されている場合)。ほとんどの場合、これらの語彙で用語を定義する場合は、複雑な形式は必要ではありません。したがって、それらを表現し交換するために、ISO 25964データ・モデル[ISO-25964]やW3CのSKOS(Simple Knowledge Organization System)[SKOS-PRIMER]などのよりシンプルなモデルが提案されています。

ベスト・プラクティス15: 語彙を再利用する(標準化されたものが望ましい)。

共通語彙(標準化された語彙が望ましい)を用いてデータとメタデータをエンコードしてください。

理由

他の人がすでに利用している語彙を利用すると、コミュニティにおけるコンセンサスの獲得と促進が行われます。これにより、相互運用性が高まり、冗長性が低減し、自身のデータの再利用が促進されます。とりわけ、メタデータ(特に、構造、来歴、品質、バージョン付けメタデータ)に共通語彙を用いることは、データとメタデータの両方の比較と自動処理に役立ちます。さらに、標準に基づくコードと用語を参照すると、類似する要素や値の曖昧さや衝突を避けるのに役立ちます。

意図する結果

データの公開者と利用者の間の相互運用性とコンセンサスが強化されるでしょう。

可能な実装アプローチ

リンクト・データ公開のためのW3Cベスト・プラクティス[LD-BP]の語彙の項では、既存の語彙の発見、評価、選択に関する指針を提供しています。

Open Geospatial Consortium(OGC)、ISO、W3C、WMO、図書館、研究データ・サービスなどの組織は、誰でも利用できるコード、用語、リンクト・データ語彙のリストを提供しています。重要なのは、データの利用者が値の標準化された意味を検索して利用できるように、データセットまたはそのドキュメントが十分な(人間と機械が読める)コンテキストを提供していることを確認することです。ウェブ環境では、標準化された語彙資源に明白なウェブ・ベースの識別子(URI)を用いることは、これを行うための効果的な方法ですが、より大きな、国境を越える相互運用性のために同じURIに多言語ラベルを付与できることを指摘しておきます。欧州連合の多言語シソーラスであるEurovocが典型的な例です。

例15

DCAT語彙は、データセットに関するメタデータを表現し[VOCAB-DCAT]、いくつかの既存の語彙(ダブリン・コア、FOAF、SKOS、vCard)の要素を再利用しています。新しいものを作成するのではなく、dct:titleのようなダブリン・コアのプロパティーを再利用することで(例えば、dcat:title)、DCATベースのメタデータを、ダブリン・コアのステートメントを読んで処理できるアプリケーションで利用できるようになります。
デジタル文化セクターでは、Europeanaのデータ・モデル(EDM)でも、ダブリン・コア、FOAF、SKOSなどの既存の共有語彙を広く利用しています。これは、Europeanaのデータ提供者によるEDMの採用を促進し、同じセクターの同様のイニシアチブのベスト・プラクティスとして位置づけるのに役立ちました。例えば、米国デジタル公共図書館(Digital Public Library of America)のメタデータ・アプリケーション・プロファイルは、EDM、したがってEDMが基礎としている様々な語彙を再利用しています。その結果、そのセクターにおいて、大量のデジタル文化のデータがより相互運用可能になっています。そのデータは、図書館、公文書館、美術館で利用されている伝統的なモデルや用語に精通していない他のコミュニティの利用者にも再利用しやすくなっています。
米国議会図書館(Library of Congress)は、ISO 639の言語のリストをリンクト・データとして公開しています(2文字コードは[ISO639-1-LOC]を参照)。
```
:stops
    dct:language <http://id.loc.gov/vocabulary/iso639-1/en> .
```
オーストラリアの固体地球および環境グリッドは、古生代に関するhttp://resource.geosciml.org/classifier/ics/ischart/Paleozoicなど、国際層序委員会の年代層序表の地質年代尺度の要素に関するURIの参照リストを公開しています。
```
:dataset-005 a dcat:Dataset ;
    dct:temporal <http://resource.geosciml.org/classifier/ics/ischart/Paleozoic> .
```
Googleは、公共交通機関のデータを公開するための形式を定義したGTFS(General Transit Feed Specification)を管理しています。この形式は、慎重に定義され、コンセンサスが促進されるように一定のコミュニティのフィードバックにさらされるroute_short_nameやroute_typeなどのフィールドの集合に依存しています。定義には、route_typeで使用されるもののような、コード化された値の仕様が含まれています。
```
0 - Tram, Streetcar, Light rail. Any light rail or street level system within a metropolitan area.
1 - Subway, Metro. Any underground rail system within a metropolitan area.
2 - Rail. Used for intercity or long-distance travel.
```
リンクト・データ以外の方法では、これらのフィールドとコードには、個々のウェブ識別子も機械可読なセマンティクスもないことに注意してください。したがって、これらを利用するには、実装者がドキュメントを解析し、データを利用する個々のアプリケーションに解釈をエンコードする必要があります。

検証方法

リンクト・オープン語彙のリポジトリのような語彙リポジトリや、リンクト・データ公開のためのベスト・プラクティス[LD-BP]やRDFaおよびJSON-LDのコア初期コンテキストなどの技術に特化したベスト・プラクティスで記述されているサービスのリストを用いて、データセットを表現するために用いるクラス、プロパティー、用語、要素、属性が、他のデータセットで用いられている語彙で定義されているものを複製していないことを確認してください。

利用する語彙の用語やコードが、IETF、OGC、W3Cなどの標準開発機関で定義されているか、政府機関などの適切な機関によって公開されているかを確認してください。

根拠

メリット

再利用
Processability
理解
信頼
相互運用性

ベスト・プラクティス16: 適切な形式化レベルを選択する。

データと最も可能性の高いアプリケーションの両方に適合する形式セマンティクスのレベルを選択してください。

理由

アルバート・アインシュタインが言ったかどうかは定かではありませんが、何事もできる限りシンプルにしなければなりませんが、シンプルすぎてはいけません。

形式セマンティクスは、詳細な意味を伝える正確な仕様を確立するのに役立ち、複雑な語彙(オントロジー)の利用は、自動推論などのタスクの基礎となりえます。一方で、そのような複雑な語彙を作成し理解するためにはより努力が必要で、それを利用したデータセットの再利用、比較、リンク付けを妨げる可能性があります。

データが詳細な研究課題(A、B、Cが真であり、Dが真でないという事実により、結論Eが導かれる)をサポートするのに十分に豊かであれば、OWLプロファイルのようなものが明らかに適切でしょう[OWL2-PROFILES]。

しかし、バス停のリストに関しては何も複雑なことはありません。

非常にシンプルな語彙を選択することは常に魅力的ですが、危険性もあります。シンプルさを目指すことにより、バス停の地理的な位置が地図に表示されなくなるなど、重要な情報を提供する一部のデータを公開者が除外してしまうことになる可能性があります。したがって、目標は単にデータを共有することではなく、他の人がそれを再利用することであることを念頭に置いてバランスを取らなければなりません。

意図する結果

最も可能性の高いアプリケーションのケースは、必要以上の複雑さなくサポートされるでしょう。

可能な実装アプローチ

仲間がすでに何を行っているかに目を向けてください。現在のニーズと一致する、またはほぼ一致する、一般的に用いられている語彙が存在している可能性が高いです。おそらく、それが利用すべきものです。

利用したい語彙を見つけることができたとしても、自分のケースには当てはまらない定義域や値域の制限など、利用を難しくするセマンティックな制約に気づきます。そのような状況では、語彙の公開者に連絡し、それに関して話をする価値があることが多いです。おそらく、彼らはその制限を取り除き、語彙をより広く利用する方法についてさらなる指針を提供してくれるでしょう。

W3Cは、語彙の利用と開発に関する課題を議論できるメーリング・リストをpublic-vocabs@w3.org[アーカイブ]で運営しています。

独自の語彙を作成する場合には、他の人が再利用できる可能性を高めるために、セマンティックな制限を自分に有効な範囲で最低限に留めてください。例として、(非常に広く用いられている)SKOSオントロジーの設計者自身は、そのクラスとプロパティにー対して提案されたすべての形式的な公理に関して質問を投げかけ、そのオントロジーの関与を最小限に抑えました。それを利用することは、多くのアプリケーションにとって有益でしたが、その他のアプリケーションのデータでは形式的な矛盾が生じ、SKOSをまったく利用できなくなってしまったため、しばしば拒絶されたのです。例としてskos:broaderというプロパティーは、多くのシソーラス[SKOS-DESIGN]にとって概念間の階層リンクを作成する方法として適していたにも関わらず、推移的なプロパティーとして定義されませんでした。語彙を選択する時には、その種の「幅広い利用のための設計」の根拠を探してください。

この「幅広い利用のための設計」の別の例は、schema.orgにあります。2011年6月に開始されたschema.orgは、プロパティーを利用できるオブジェクトの型を定義するための、規範的ではなく参考情報的なアプローチであるという理由などにより、非常に短期間に大規模に採用されました。例えば、authorというプロパティーの値は、OrganizationかPersonの型に属していると「予想」されるだけです。authorは、CreativeWorkという型に「利用できます」が、これは厳しい制約ではありません。再び、この設計方法によって、schema.orgは、共有するデータをエンコードする際に用いる語彙として適した選択肢となります。

検証方法

これは、たいてい客観的な検証方法がない、主観的な判断の問題です。一般的なガイドラインとしては、次のものがあります。

ダブリン・コアやschema.orgなどの共通語彙が用いられているか?
シンプルな事実がシンプルに述べられ、容易に検索できるか?
形式的な知識表現言語では、特定の語彙を用いるデータに推論エンジンを適用しても、対象アプリケーションにとって不要なステートメントはあまり多く作成されない。

根拠

関連要件: R-VocabReference、R-QualityComparable

メリット

再利用
理解
相互運用性

8.10 データ・アクセス

ウェブ上のデータに容易にアクセスできるようにすることで、人間と機械の両方が、ウェブ・インフラストラクチャーを用いてデータを共有するメリットを活用できます。デフォルトでは、ウェブは、ハイパーテキスト転送プロトコル(HTTP)というメソッドを用いてアクセスを提供します。これにより、アトミックなトランザクション・レベルでデータへのアクセスが提供されます。これは、ファイルのシンプルな一括ダウンロードによるか、データが複数のファイルに分散されていたり、より高度な検索方法が必要な場合にはAPIによります。一括ダウンロードとAPIという2つの基本的な方法は、互いに排他的ではありません。

一括ダウンロードのアプローチでは、データは一般的にサーバー側で予め処理されており、複数のファイルまたはファイルのディレクトリ・ツリーが、1つのダウンロード可能なファイルとして提供されます。データの公開者は、非ファイル・システム・ソリューションから一括データを検索する場合、データのユーザ・コミュニティに応じて、1つのトランザクションに相当する一連の検索作業をサポートするためにAPIを提供できます。

リアルタイムまたはほぼリアルタイムで作成されるデータの場合、データの公開者は、緊急情報、天気予報データ、システム監視基準などの時間的制約のあるデータに即座にアクセスできるように、自動システムを用いるべきです。一般的に、第三者がそのようなデータを自動的に検索して取得できるようにするためには、APIが利用可能であるべきです。

APIは、リアルタイムのデータ経路の自動化に役立つことに加えて、ウェブのあらゆる種類のデータに適しています。一般的に、それにはダウンロード用ファイルを掲載する以上の作業が必要ですが、明確にドキュメント化された標準に基づく安定したAPIを提供することは価値があるということに気づく公開者が増えています。

一部のデータ公開者にとっては、誰がデータをダウンロードしたのか、どのようにそれを利用したのかを知ることが重要です。この情報を収集するには2つの方法がありえます。まず、公開者は、ユーザに情報提供を要請できます。ユーザがそれを行う動機は、データの継続的な公開の奨励と、自身の取り組みの促進です。次のあまりユーザ・フレンドリーではない方法は、データにアクセスする前に登録を要求することです。いずれの場合も、データセット利用語彙[VOCAB-DUV]は、そのような情報を表すための構造を提供します。ユーザからデータを収集する場合には、公開者は、ユーザから収集した情報を利用する理由と方法(明示的または暗黙的のいずれかの方法で)を説明すべきです。明確な方針がないと、ユーザは情報を提供することを恐れ、そのため、データセットの価値が低下するかもしれません。

ベスト・プラクティス17: 一括ダウンロードを提供する。

利用者が1つのリクエストで完全なデータセットを検索できるようにしてください。

理由

ウェブのデータが多くのURIに分散されているけれども、論理的に1つのコンテナとして編成できる時には、データに一括してアクセスできると便利です。一括アクセスは、データを1つのデータセットとして扱うための一貫性のある手段を提供します。多数の検索で個々のデータにアクセスすることは面倒でありえ、完全なデータセットを再構成するために用いると、データの処理方法に一貫性がなくなる可能性があります。

意図する結果

典型的なユーザが妥当と考えるよりも時間を要する大きなファイルの転送は、専門のファイル転送プロトコルで行えます。

可能な実装アプローチ

データと利用者ニーズの性質に応じて、可能なアプローチには下記のものがあります。

元々複数のファイルとして存在しているデータセットの場合、データのコピーを前処理によって1つのファイルにし、1つのURIからダウンロード用のデータにアクセスできるようにします。大きなデータセットの場合は、ファイルを圧縮することもできます。
動的なクエリに加えて一括ダウンロードを取得する機能が含まれるAPIを提供します。このアプローチは、動的なデータの完全なスナップショットを取得するのに有用です。
非常に大きなデータセットの場合、一括ファイル転送は、bbcpやGridFTPなどのhttp以外の手段で実現できます。

一括ダウンロードには、データセットについて説明しているメタデータが含まれているべきです。発見メタデータ[VOCAB-DCAT]は、一括ダウンロードの外部でも利用できるべきです。

検証方法

1回のリクエストで完全なデータセットを取得できるかを確認してください。

根拠

メリット

再利用
アクセス

ベスト・プラクティス18: 大きなデータセットにはサブセットを提供する。

データセットが大きい場合は、ユーザとアプリケーションがデータの有用なサブセットを容易に処理できるようにしてください。

理由

大きなデータセットは、場所を移動させるのが難しいことがあります。ユーザにとって大きなデータセットを保存または解析することが不便なこともあります。ユーザがデータセットのサブセットのみを必要とする場合は、完全なデータセットをダウンロードする必要はありません。さらに、大きいデータセットを利用するウェブ・アプリケーションは、開発者が「遅延読み込み」(lazy loading)を利用し、全体のうちの小さな部分を処理し、必要な時に新しい部分のみを取り込むことができれば、よりうまく機能します。データのサブセットを処理する機能により、オフライン処理もより効率的に機能します。リアルタイム・アプリケーションは、より迅速に更新できるため、特に恩恵を受けます。

意図する結果

人間とアプリケーションは、全てではなく、最も多くのユーザにとって不必要よりも必要なデータである割合が高いデータセットのサブセットにアクセスできます。ドメイン内のユーザが大き過ぎると考える静的なデータセットは、より小さな部分としてダウンロードできるでしょう。APIは、データのスライスまたはフィルタリングされたサブセットを利用できるようにし、その粒度はドメインのニーズとウェブ・アプリケーションの性能要求に依存します。

可能な実装アプローチ

データセットの予想されるユースケースを考慮し、どの種類のサブセットが最も有用そうであるかを判断してください。APIは通常、転送するデータをカスタマイズできるため、データのサブセットを提供するための最も柔軟なアプローチであり、利用できるサブセットによって必要なデータが提供される可能性と、特定の状況では、– 不必要なデータ – が提供される可能性をより高めます。粒度は、ウェブ・アプリケーションのアクセス速度に適しているべきです。(APIの呼び出しが1秒以内に返されると、アプリケーションは自然な感じのインタラクティブ性を提供できるようになります。データの配信に10秒以上かかれば、ユーザは失敗を疑う可能性があるでしょう。)

データセットをサブセット化する別の方法は、単純にそれをより小さな単位に分割し、それらの単位を個別にダウンロードまたは表示できるようにすることです。

また、データの個々のセクションを別々に(または、予想されるユースケースで保証されている場合には、より小さな部分に)処理できるようにデータセットをマークアップすることも役立つ可能性があります。これを行うための方法の1つは、RDFデータ・キューブ語彙で「スライス」を示すことです。

例18

MyCityの乗り換え機関は、乗客の利用に関する詳細なデータを数年間収集しています。これは、乗り換えの種類、路線、車両、運転手、乗車停留所、降車停留所、乗り換えパスの種類、乗車時間などに基づく多くの乗客の値が含まれている非常に大きなデータセットです。彼らは、様々なステークホルダーが、様々なデータのサブセットをダウンロードすることに関心があることに気付きました。個々の乗り換えシステムを運営している人々は、自身の乗り換えモードのデータのみを必要とし、都市計画者は各停留所における乗車数と降車数のみを必要とし、都市予算局は販売される各種のパスの数のみを必要とし、その他の人々はさらに様々なサブセットを必要としています。この機関は、ユーザが関心のある変数を選択し、一部の変数に範囲を設定して、必要なサブセットのみをダウンロードできるウェブ・サイトを作成しました。

検証方法

より小さな単位を検索する複数のリクエストを行うことで、データセット全体を復元できることを確認してください。

根拠

メリット

再利用
Linkability
アクセス
Processability

ベスト・プラクティス19: 複数の形式で利用できるデータを提供するために内容交渉を用いる。

複数の形式で利用できるデータを提供するために、ファイル拡張子に加え、内容交渉を利用してください。

理由

例えば、RDFaを用いて、人間が読めるデータと機械可読なデータが混在するHTMLページでデータを提供できます。しかし、ウェブ・アーキテクチャ[WEBARCH]とDCAT[VOCAB-DCATT]が明らかにしているように、データセットなどの資源は多くの表現を持つことができます。同じデータをJSON、XML、RDF、CSV、HTMLで利用できるかもしれません。これらの複数の表現はAPIで提供できますが、適切な表現(DCATで配信と呼ばれるもの)を返すために、内容交渉を用いて同じURLから利用できるようにすべきです。特定のURIを用いて、内容交渉を避け、データの個々の表現を直接識別することができます。

意図する結果

内容交渉により、クライアントが行ったリクエストに応じて、同じ資源の異なる資源または異なる表現を提供できるようになります。

可能な実装アプローチ

可能な実装アプローチは、リクエストされた資源の内容交渉を扱うようにウェブ・サーバーを設定することです。

特定の形式の資源の表現には、URIまたはHTTPリクエストのContent-typeによってアクセスできます。

例19

HTTPリクエストの指定されたコンテンツ・タイプに応じて、バス停データセットの様々な表現を提供できます。
cURLを用いて、CSVとJSON-LD形式で表現されたhttp://data.mycity.example.com/transport/dataset/bus/stopsのコンテンツを取得します。

curl -L -H "Accept: text/csv" http://data.mycity.example.com/transport/dataset/bus/stops

curl -L -H "Accept: application/ld+json" http://data.mycity.example.com/transport/dataset/bus/stops

検証方法

利用可能な資源の表現を確認し、HTTPリクエスト・ヘッダで受け入れ可能なコンテンツを指定して取得することを試みてください。

根拠

関連要件: R-FormatMachineRead、R-FormatMultiple

メリット

再利用
アクセス

ベスト・プラクティス20: リアルタイム・アクセスを提供する。

データがリアルタイムで作成される場合は、ウェブ上でリアルタイムまたはほぼリアルタイムで利用できるようにしてください。

理由

ウェブ上にリアルタイムのデータが存在していれば、重要な時間的制約のあるデータへのアクセスが可能となり、リアルタイムのウェブ・アプリケーションの開発が促進されます。リアルタイム・アクセスは、データの公開者にデータを容易に利用できるようにするリアルタイム・データの公開者に依存します。特定のアプリケーションにリアルタイム・アクセスを提供する必要性は、リフレッシュ速度、データ後処理ステップで導入される待ち時間、インフラストラクチャーの可用性、利用者が必要とするデータを考慮して、個別に評価する必要があります。データにアクセスできるようにすることに加え、データの公開者は、データ・ギャップ、データのエラーおよび異常、公開遅延について記述した追加情報を提供できます。

意図する結果

アプリケーションは、時間が極めて重要なデータに、リアルタイムまたはほぼリアルタイムでアクセスできるでしょう。その場合、リアルタイムとは、データ作成後のミリ秒から数秒後までの範囲を意味します。

可能な実装アプローチ

可能な実装アプローチは、公開者がウェブ・サービスを設定し、そのウェブ・サービスでリアルタイムのデータを受け取るような通信を提供することで、ポーリングやストリーミングによって利用者が即座に利用できるようになります。

利用者がデータをチェックする頻度が低い場合は、リアルタイムのデータは、利用者がAPIで最新のデータをリクエストした時にポーリングされます。データの公開者は、これらの読み取り専用リクエストが容易になるようにAPIを提供します。

利用者がデータをチェックする頻繁が高い場合は、ストリーミング・データの実装の方が適切でありえ、その場合、データはAPIによりプッシュされます。ストリーミング技術はこのベスト・プラクティスの対象外ですが、サーバーから自動更新を受け取るクライアントに利用できる標準的なプロトコルと技術は多く存在しています(例えば、Server-sent Events、WebSocket、EventSourceAPI)。

例20

この例では、MyCityの交通局は、すべてのバスのGPSデータを追跡しています。APIは、REST APIを用いて利用者にリアルタイムのステータス情報を提供します。APIにより、利用者は下記を選択できようになります。

バスの現在位置
バスの到着時間
バスの状況

APIの記述

説明	API	パラメータ
バスの位置	`{root}/bus/position/current`	bus_id
ある停留所へのバスの到着時間	`{root}/bus/arrival_time`	bus_id, stop_id
バスの状況 (可能な返答：「定刻通り」、「遅延」、「運行休止」)	`{root}/bus/status`	bus_id

検証方法

リアルタイムのデータ・アクセスを適切に検証するためには、最初に収集してから公開してアクセスされるまでの時間のデータを追跡する必要があります。[PROV-O]は、この動きを記述するために使用できます。複数のコンピュータ・システムで構成されるシステムのリアルタイム・アクセスを分析する場合は、注意が必要です。例えば、壁掛け時計のタイム・スタンプに依存した検証では、データ公開の待ち時間ではなく、個々のコンピュータ・システム間の矛盾が反映される可能性があります。

根拠

メリット

再利用
アクセス

ベスト・プラクティス21: 最新のデータを提供する。

データを最新の方法で利用できるようにし、更新頻度を明示してください。

理由

ウェブ上のデータの可用性は、おそらくデータが処理または変更された後の、データの作成または収集時間と密接に一致しているべきです。データの公開を更新頻度と丁寧に同期させることで、利用者の信頼とデータの再利用が促進されます。

意図する結果

一般的に、オンラインで利用可能な最新データが、他のルートでリリースされた最新データを反映できるように、ウェブ上のデータはタイムリーに更新されるでしょう。新しいデータが利用可能になると、その後可能な限り早くウェブ上に公開されるでしょう。

可能な実装アプローチ

データのバージョン付けのベスト・プラクティスに従って、新しいバージョンのデータセットを定期的にウェブに掲載できます。ウェブへの掲載は、新しいバージョンのデータのリリース過程の一部として行うことができます。その過程でウェブの公開物を配信可能なものにし、個人をその作業の責任者として割り当てることは、データが古くなるを防ぐのに役立つ可能性があります。今後の更新に対する利用者の期待値を設定するために、予想される公開頻度を示した人間が読めるテキストを含むことができ、頻度を示す機械可読なメタデータを提供することもできます。

例21

バス停データセットの更新頻度が年に1度であるとします。新しいデータをデータセットに追加する頻度を記述するためにdct:accrualPeriodicityというプロパティーを使用できます。データの更新スケジュールを反映するために、新しいバージョンのデータセット(stops-2016-05-05)が作成されます。予定よりもより早く新しいバージョンが作成される可能性があることに注意することは重要ですが、公開者は、追加のバージョンが予定と同じくらい迅速にウェブに公開されることを保証すべきです。

   :stops-2016-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2016-05-05"^^xsd:date ;
      ...
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      ...
      dct:isVersionOf :stops-2015-05-05 ;
      pav:previousVersion stops-2015-12-17 ;
      rdfs:comment "The bus stops dataset was updated to reflect the creation of new bus stops since the last update and to follow the update frequency" ;
      owl:versionInfo "1.2" ;
      pav:version "1.2"
      .

検証方法

更新頻度が提示されており、ウェブ上に最近公開されたコピーが、提示している更新頻度で予告されている日よりも古くないことを確認してください。

根拠

メリット

再利用
アクセス

ベスト・プラクティス22: 利用できないデータに関する説明を提供する。

利用できないデータについては、データへのアクセス方法と、誰がアクセスできるかに関する説明を提供してください。

理由

利用できないデータに関するオンライン・ドキュメントを公開することは、公開者が知識ギャップを明示的に識別する手段を提供します。これは、利用者コミュニティへの状況説明となるため、利用可能であるデータの利用が促進されます。

意図する結果

利用者は、現在のデータセットの参照先のデータが利用できないこと、または、異なる条件の下でのみ利用できることが分かるでしょう。

可能な実装アプローチ

機械か人間かの状況に応じて、データが利用できないことを示す様々な方法があります。データの公開者は、データが利用できないことを人間が読める形で説明したHTMLドキュメントを公開できます。機械アプリケーション・インターフェースの観点から、人間が読めるメッセージをカスタマイズした適切なHTTPステータス・コードを使用できます。ステータス・コードの例には、303(他を参照)、410(永久的に削除)、503（*データを提供する*サービス利用不可）などが含まれます。

検証方法

利用可能できなくなった、またはすべてのユーザに利用可能であるわけではないデータへの参照がデータセットに含まれている場合は、何が欠落しているかの説明と、アクセスを得るための手順(可能な場合は)が提示されているかを確認してください。利用できないデータを取得しようとした時に、400または500の範囲の正当なhttp応答コードが返されるかを確認してください。

根拠

メリット

再利用
信頼

8.10.1 データ・アクセスAPI

ベスト・プラクティス23: APIでデータを利用できるようにする。

該当する資源を持っている場合、APIを提供してデータを提供してください。

理由

APIによって、データの利用者に最大限の柔軟性と処理可能性が提供されます。これにより、リアルタイムのデータ利用、リクエストに応じたフィルタリング、原子レベルでのデータ処理性能が可能となります。データセットが大きくて頻繁に更新される場合や非常に複雑である場合は、APIはデータを公開するための最良の選択肢になる可能性が高いです。

意図する結果

開発者は、自身のアプリケーションで利用するためにプログラムでデータにアクセスし、利用者側の努力を必要とせずにデータを更新できます。ウェブ・アプリケーションは、プログラム・インターフェースにクエリを行うことで、特定のデータを取得できます。

可能な実装アプローチ

APIの作成は、ダウンロード用にデータを掲載するよりも少し複雑です。それには、ウェブ・アプリケーションの構築方法に関する理解が必要です。しかし、ゼロから構築する必要は必ずしもありません。CKANなどのデータ管理プラットフォームを利用している場合は、既存のAPIを有効化することができるでしょう。多くのウェブ開発フレームワークにはAPIのサポートが含まれており、カスタムのAPIを構築するための専用のフレームワークもあります。

Rails(Ruby)、Django(Python)、Express(NodeJS)は、API構築に対する支援を行っているウェブ開発フレームワークの例です。APIフレームワークの例には、Swagger、Apigility、Restify、Restletが含まれます。

検証方法

検証クライアントが呼び出しをシミュレートでき、APIが予期する応答を返すかを確認してください。

根拠

関連要件: R-AccessRealTime、R-AccessUpToDate

メリット

再利用
Processability
相互運用性
アクセス

ベスト・プラクティス24: APIの基礎としてウェブ標準を用いる。

APIを設計する時には、ウェブ自体の技術に基づくアーキテクチャ・スタイルを用いてください。

理由

ウェブ標準に基づいて構築されたAPIは、ウェブの強みを活用できます。例えば、HTTP動詞をメソッドとして用い、個々の資源に直接マッピングするURIを用いると、リクエストと応答との密結合を避けるのに役立ち、維持しやすく、多くの開発者が容易に理解して利用できるAPIに役立ちます。ウェブのステートレス性は、迅速なスケーリングを可能にする時に強みとなりえ、ハイパーメディアを用いるとAPIとの豊かな相互作用が可能となります。

意図する結果

RESTなどのウェブ標準に基づくAPIの経験がある開発者は、APIの使い方に関する初期理解を有しています。APIは維持も簡単です。

可能な実装アプローチ

REST(REpresentational State Transfer)[Fielding][Richardson]は、ウェブAPIでの利用において、ウェブ自体のアーキテクチャを利用するアーキテクチャ・スタイルです。RESTfulなAPIの構築方法に関する本格的な議論は、このドキュメントの範囲を越えていますが、始動時に役に立つ資源や強力なコミュニティが数多く存在しています。利用できるRESTfulな開発フレームワークも数多く存在しています。REST APIの構築をサポートするウェブ開発フレームワークをすでに利用していれば、それを利用することを検討してください。そうでない場合は、RESTを用いたAPIのみのフレームワークを検討してください。

検討すべき実装の別の側面は、データのみでなくリンクでも応答するハイパーメディアAPIを作成することです。リンクは、ウェブをウェブたらしめるものであり、データAPIは、リンクを応答に含めることで、より有益で使えるものになります。リンクは、追加の資源、ドキュメント、ナビゲーションを提供できます。RESTのすべての制約を満たしてはいないAPIであったとしても、応答でリンクを返すことは、豊かな自動ドキュメント化型のサービスに役立ちます。

例24

特定のバス路線に関するハイパーメディアAPIからの情報の応答の例は、次のようになります。

 {
 	"code": "200",
 	"text": "OK",
 	"data": {
 		"update_time": "2013-01-01T03:00:02Z",
 		"route_id": "52",
 		"route_name": "Lexington South",
 		"route_description": "Lexington corridor south of Market",
 		"route_type": "3"
 	},
 	"links": [{
    "href": "http://data.mycity.example.com/transport/api/v2/routes/52",
 		"rel": "self",
 		"type": "application/json",
 		"method": "GET"
 	}, {
  "href": "http://data.mycity.example.com/transport/api/v2/routes",
 		"rel": "collection",
 		"type": "application/json",
 		"method": "GET"
 	}, {
    "href": "http://data.mycity.example.com/transport/api/v2/schedules/52",
 		"rel": "describedby",
 		"type": "application/json",
 		"method": "GET"
 	}, {
    "href": "http://data.mycity.example.com/transport/api/v2/maps/52",
 		"rel": "describedby",
 		"type": "application/json",
 		"method": "GET"
 	}]
 }

検証方法

サービスがカスタム・メソッドの呼び出しに対するトンネルとしてhttpを用いていないことと、URIにメソッド名が含まれていないことを確認してください。

根拠

関連要件: R-APIDocumented、R-UniqueIdentifier

メリット

再利用
Linkability
相互運用性
発見可能性
アクセス
Processability

ベスト・プラクティス25: APIに完全なドキュメントを提供する。

APIに関する完全な情報をウェブで提供してください。機能を追加したり変更を行ったりした場合にはドキュメントを更新してください。

理由

開発者はAPIの主な利用者であり、ドキュメントはその品質と有用性に関する最初の手掛かりです。APIのドキュメントが完全で理解しやすければ、開発者はおそらくそれを利用し続ける気になるでしょう。包括的なドキュメントを1か所で提供することにより、開発者は効率的にコードを作成できます。変更点を強調することにより、ユーザが必要に応じて新しい機能を利用し、コードを適用できるようになります。

意図する結果

開発者は、必要なパラメータや何が返されるのか、つまり、APIに関連する全情報を含む、APIの個々の呼び出しに関する詳細情報を取得できるでしょう。一連の値 — 利用方法、更新情報の通知、連絡先情報など — が記述されており、ウェブで容易に閲覧可能であるべきです。また、開発者がAPIクライアント・ソフトウェアを構築するのに役立つように、機械がAPIのドキュメントにアクセスできるようにもなるでしょう。

可能な実装アプローチ

典型的なAPI参照は、APIが処理できる呼び出しの包括的なリストを提供し、それぞれの目的を説明し、それが認めるパラメータおよび何が返されるかを詳細に示し、1つ以上の利用例を提示します。APIのドキュメントに関する良い傾向の1つは、開発者が検証用に特定の呼び出しを入力すると、自身のユースケースに対してAPIが何を返すかを確認できるようなフォームを提供することです。現在、Swagger、io-docs、OpenApisなど、この種のドキュメントをすばやく作成するために利用できるツールが存在しています。呼び出しによってエラーや用法に関する役立つ情報が返されるように、APIの自動ドキュメント化も行うべきだと述べておくことは重要です。APIのユーザは、問題、提案、バグ・レポートについて管理者に連絡できるべきです。

ドキュメントの品質は、用法や開発者からのフィードバックにも関連しています。ドキュメントに関するユーザからのフィードバックを絶えず得るようにしてください。

検証方法

APIで可能なすべての呼び出しに関してドキュメントに記載されていることを確認してください。どのパラメータが必須なのかオプションなのかそして個々の呼び出しによって何が返されるのかの詳細が提供されているかを確認してください。

最初に成功した呼び出しまでの時間(Time To First Successful Call)を確認してください(つまり、数分以内にAPIへのリクエストが成功すれば、開発者がそのAPIから離れない可能性が増します)。

根拠

メリット

再利用
信頼

ベスト・プラクティス26: 互換性のないAPIの変更を避ける。

クライアント・コードを破綻させるAPIの変更を避け、大きな変更が生じる場合には、APIの変更について開発者に伝えてください。

理由

開発者がAPI用のクライアントを実装する際には、スキーマや応答形式など、組み込まれている独自の特性に依存する可能性があります。互換性のないAPIの変更を避けることで、クライアント・コードの破綻は最小限に抑えられます。変更が発生した時にそれを伝えることで、開発者は新しい機能を利用でき、互換性のない変更が稀なケースであれば、対策を講じることができます。

意図する結果

開発者のコードが機能し続けます。開発者は、改善について知り、それを利用することができます。互換性のないAPIの変更は稀であり、それが発生した場合、開発者は自身のコードを適応させるのに十分な時間と情報を獲得できるでしょう。それにより、破綻が回避され、信頼を高めることがでるでしょう。APIの変更は、APIのドキュメト・サイトで発表されるでしょう。

可能な実装アプローチ

APIを改善する時には、既存の呼び出しの仕組みを変更するのではなく、新しい呼び出しや新しいオプションを追加することに重点を置いてください。既存のクライアントはそのような変更を無視して機能し続けることができます。

完全にRESTfulなスタイルを用いる場合は、資源URIを一定に保ち、ユーザが直接コード化しない要素のみを変更することで、開発者に影響を与える変更を避けることができるべきです。最初に設計した拡張ポイントと互換性のない方法でデータを変更する必要がある場合は、まったく新しい設計が求められ、これはクライアント・コードの互換性のない変更を意味します。その場合は、異なる資源URIを用いて、新しいREST APIとして変更を実装するのが一番です。

クライアント・コードを破綻させないと適度に重要な変更を加えることができないアーキテクチャ・スタイルを用いている場合は、バージョン付けを用いてください。応答ヘッダでバージョンを示してください。バージョン番号は、URIまたはリクエストの「受け入れ」(accept)ヘッダに(内容交渉を用いて)反映されるべきです。URI内でバージョン付けを行う場合は、できる限りバージョン番号を左側に含めてください。コードをまだ新しいバージョンに適合させていない開発者のために、以前のバージョンを利用できるようにし続けてください。

例26

互換性のないAPIの変更の例には、次のようなものがあります。

呼び出しを削除する。
呼び出しを行うメソッドを変更する。
呼び出し内で用いている資源のURIを変更する。
呼び出しのための必須パラメータを追加する。
パラメータのデータ型を変更する。
キー・値型応答のキーの名前を変更する。
XML応答の構造を変更する。
文字列を配列に変更するなど、応答内の値のデータ型を変更する。

MyCityの乗り換え機関のAPIが、1つのステーション内の特定のバスの到着時間に対するリクエストにhttp://data.mycity.example.com/transport/api/arrivals/buses/53/stop/12で応答しているけれども、ある範囲の停留所に対して一度にクエリを行えるようにしようと決めたとします。その機関は、リクエストの形式を、http://data.mycity.example.com/transport/api/arrivals/buses/53/stop/12-12のような範囲を要求するように変更するのではなく、http://data.mycity.example.com/transport/api/arrivals/buses/53/stops/1-12のように、古いAPIの呼び出しを保持しつつ、複数の到着用に新しいものを追加できます。

ユーザに変更を直接通知するためには、メーリング・リストを作成し、開発者に参加を働き掛けるのが良いでしょう。それにより、そこで変更を発表でき、フィードバックに適したメカニズムとなります。また、ユーザは互いに助け合うこともできます。

検証方法

製品バージョンに変更を適用する前に、最初にAPIの検証バージョンにリリースを行ってください。検証バージョンでアプリケーションを検証してフィードバックを提供するように開発者に依頼してください。

根拠

メリット

信頼
相互運用性

8.11 データの保存

ワーキンググループは、ウェブ上のすべてのデータが必要に応じて無期限にいつでも利用可能であると想定することは非現実的であると認識しています。データの公開者は、様々な理由で、生のウェブからデータを削除したくなったり、削除しなければならなくなったりする可能性があり、その時点で、それは現在の作業範囲から外れ、データ保存担当者の領域へと移行します。しかし、ここで取り上げているのは、何が残っているかということ、つまり、公開者が、データが削除されたことまたはアーカイブされたことを示すためにどのようなステップを取るべきなのかということです。単純にウェブから資源を削除してしまうのは悪い習慣です。そのような状況では、URIを逆参照すると、資源が存在不明(not found)であることのみをユーザに知らせる404のHTTP応答コードが示されます。下記のベスト・プラクティスは、より生産的なアプローチを提供します。

ベスト・プラクティス27: 識別子を保持する。

ウェブからデータを削除する際には、識別子を保持し、アーカイブされた資源に関する情報を提供してください。

理由

URIの逆参照は、ウェブ上のデータの主要なインターフェースです。URIの逆参照により、悪名高い404応答コード(存在不明)になった場合、ユーザは、可用性の欠如が永久的なのか、一時的なのか、計画的なのか偶発的なのかを知ることができません。公開者または第三者がデータをアーカイブしていても、元のURIが事実上壊れていれば、そのアーカイブされたコピーが見つかる可能性はかなり低いです。

意図する結果

資源のURIは、常に資源を逆参照するか、それに関する情報にリダイレクトするでしょう。

可能な実装アプローチ

検討すべきシナリオが2つあります。

資源は完全に削除されてしまっており、いかなるルートでも利用できなくなっている。
資源はアーカイブされており、アーカイブへのリクエストによってのみ利用できる。

このうちの最初のケースでは、410(消滅)のHTTP応答コードで応答するようにサーバーを設定すべきです。仕様は次のようになっています。

410の応答は、その資源は意図的に利用できないこと、また、サーバーの所有者はその資源への遠隔リンクを削除することを望んでいることを受信者に通知することで、ウェブの管理作業を支援することを主に目指しています。

データがアーカイブされている2番目のケースでは、リクエストをウェブ・ページにリダイレクトして、データを保持しているアーカイブや、潜在的なユーザがそれにアクセスできる方法に関する情報を提供する方がより適切です。

どちらの場合も、たとえデータを直接利用できなくなっても、元のURIは資源を識別し続け、有用な情報に導きます。

検証方法

利用できなくなったデータセットのURIを逆参照すると、必要に応じて410または303の応答コードを用いて、現在のステータスと可用性に関する情報が返されることを確認してください。

根拠

関連要件: R-AccessLevel、R-PersistentIdentification

メリット

再利用
信頼

ベスト・プラクティス28: データセットの対象範囲を評価する。

保存する前にデータセットの対象範囲を評価してください。

理由

あるまとまりのウェブ・データは、定義上、グローバルなグラフの残りの部分に依存しています。このグローバルな状況は、データセットに含まれている資源の記述の意味に影響します。理想的には、特定のデータセットの保存には、そのすべて背景の保存が必要でしょう。それは、データのウェブ全体です。

アーカイブする時点で、すでに保存されている資源へのデータセット・ダンプのリンクや、使用されている語彙の評価を行う必要があります。使用されている語彙やリンク先の資源のほとんどが、まだどこにも保存されていないデータセットは、危険にさらされているとフラグ付けされるべきです。

意図する結果

ユーザは、アーカイブされたデータを将来も十分に活用できるようになるでしょう。

可能な実装アプローチ

用いられているすべての資源がすでにどこかで保存されているか、または保存を検討しているデータセットと一緒に提供する必要があるかを確認してください。

例28

保存対象のRDFデータセットは、下記のトリプルで作られています。

 
  <http://data.mycity.example.com/transport/route/bus/ABtimetable>
      a gtfs:Route ;
      gtfs:color "ff0000" ;
      gtfs:shortname "10" ;
      gtfs:longName "Airport - Bullfrog" ;
      gtfs:agency <http://data.mycity.example.com/transport-agency/DTA> ;
      gtfs:routeType ex:three ;
      ex:usualVehicleType dbpedia:Routemaster ;
      foaf:isPrimaryTopicOf ex:Airport_Bullfrog
      .

  <http://data.mycity.example.com/ransport/route/bus/BFC>
      a gtfs:Route ;
      gtfs:color "ffff00" ;
      gtfs:shortname "20" ;
      gtfs:longName "Bullfrog - Furnace Creek Resort" ;
      gtfs:agency <http://data.mycity.example.com/transport-agency/DTA> ;
      gtfs:routeType ex:three ;
      ex:usualVehicleType dbpedia:Articulated_bus ;
      foaf:isPrimaryTopicOf ex:Bullfrog_Furnace_Creek_Resort
      .
  …

これらのトリプルは、「gtfs」の語彙と、「ex」というテスト用のドメイン名で定義されているカスタムの語彙を用いています。これは、「foaf」、「dbpedia」、「ex」で定義されているエンティティーも利用します。正式な標準ではないものの、 FOAFとGTFS[GTFS]は、ウェブ上のあちこちでアーカイブされている定評のあるオントロジーです(例えば、LOVリポジトリを参照)。DBpediaで定義されているエンティティーもMementoゲートウェイを介して保存されており、データセットのアーカイブ・ダンプも存在しています。したがって、それらの外部資源を利用したトリプルの保存に伴うリスクは最小限です。より大きな懸念は、設計上データセットの外部には存在しない名前空間である「ex」で定義されている資源の利用から生じます。「ex:usualVehicleType」、「ex:Airport_Bullfrog」、「ex:Bullfrog_Furnace_Creek_Resort」を記述しているデータがそれらのトリプルと一緒に保存されていなければ、文脈上の意味が失われます。これは、「ex:usualVehicleType」の場合に特に危険です。なぜなら、それがなければ、記述されている路線とdbpedia資源との関係が利用アプリケーションには分からないからです(人間にとってそれがどんなに明らかであったとしても)。

この評価を考慮すると、「ex:usualVehicleType」の定義を含む改訂されたデータセットが保存の対象になります。

 <http://data.mycity.example.com/transport/route/bus/AB> a gtfs:Route;
      gtfs:color "ff0000" ;
      gtfs:shortname "10" ;
      gtfs:longName "Airport - Bullfrog" ;
      gtfs:agency <http://data.mycity.example.com/transport-agency/DTA> ;
      gtfs:routeType ex:three ;
      ex:usualVehicleType dbpedia:Routemaster ;
      foaf:isPrimaryTopicOf ex:Airport_Bullfrog
      .

  <http://data.mycity.example.com/transport/route/bus/BFC>
      a gtfs:Route;
      gtfs:color "ffff00";
      gtfs:shortname "20";
      gtfs:longName "Bullfrog - Furnace Creek Resort";
      gtfs:agency <http://data.mycity.example.com/transport-agency/DTA>;
      gtfs:routeType ex:three;
      ex:usualVehicleType dbpedia:Articulated_bus;
      foaf:isPrimaryTopicOf ex:Bullfrog_Furnace_Creek_Resort
      .
  …

  # Custom vocabulary element
  ex:usualVehicleType 
      a rdf:Property ;
      rdfs:subPropertyOf gtfs:routeType ;
      rdfs:range gtfs:Bus
      .

この2番目の、より完全なデータセットは、自己表現型であり、保存が信頼できる外部エンティティーのみを用いているため、より保存に適しています。

検証方法

例えば、50年後に何が利用できるかを判断することは不可能です。しかし、アーカイブされているデータセットが、広く用いられている外部資源と語彙にのみ依存しているかを確認できます。唯一または使用頻度の低い依存関係がアーカイブの一部として保存されていることを確認してください。

根拠

メリット

再利用
信頼

8.12 フィードバック

ウェブ上で公開することにより、様々なレベルの専門知識を持つ幅広い対象者に大規模なデータ共有が可能となります。データの公開者は、公開されたデータがデータの利用者ニーズを満たしていることを確実にしたいと考え、この目的のために、ユーザからのフィードバックは重要です。フィードバックは、公開者と利用者の両方にとって有益であり、データの公開者が公開されたデータの完全性を高めるのに役立ち、新しいデータの公開を促進させます。フィードバックにより、データの利用者は利用経験(例えば、データを利用しているアプリケーション)、好み、ニーズに関する発言権を持つことができます。可能な場合には、フィードバックは、他のデータ利用者も検討できるように公開すべきです。フィードバックを公に利用できるようにすることで、ユーザは他のデータの利用者に気づくことができ、共同作業環境がサポートされ、現在対処されている懸念や問題のユーザ・コミュニティ体験が可能となります。

ユーザ・インターフェースの観点から見ると、データの利用者からフィードバックを収集する方法には、サイト登録、連絡フォーム、品質格付けの選択、調査、ブログのコメント・ボックスを含む様々なものがあります。機械の観点から見ると、データの公開者は、テータ利用に関する測定基準やデータを用いる特定のアプリケーションに関する情報を記録することもできます。このようなフィードバックにより、データの公開者とデータの利用者との通信経路が確立されます。公開されるフィードバックは、人間が読める形式で表示されるべきです。

この項では、利用者がフィードバックを提供できるようにするためにデータの公開者が従うべきベスト・プラクティスをいくつか示します。このフィードバックは、人間または機械に対するものでありえます。

ベスト・プラクティス29: データの利用者からフィードバックを収集する。

利用者がフィードバックを提供するための容易に発見できる手段を提供してください。

理由

フィードバックの取得は、公開者がデータの利用者のニーズを理解するのに役立ち、それを公開するデータ品質の向上に役立てることができます。公開者がニーズへの対応に気を配っていることを利用者に示すことで、信頼も高まります。明確なフィードバック・メカニズムを規定すると、フィードバックを提供する方法を探さなければならないという障壁が取り払われます。

意図する結果

データの利用者は、データセットと配信に関するフィードバックと格付けを提供できるようになるでしょう。

可能な実装アプローチ

データの利用者に、連絡フォーム、ポイント&クリック方式のデータ品質格付けボタン、コメント・ボックスを含む(が、これに限定されない)1つ以上のフィードバック・メカニズムを提供してください。利用者から受け取ったフィードバックを最大限に活用するためには、データベース内の各アイテムを取得する追跡システムでフィードバックを収集し、定量化と分析ができるようにするのが良いでしょう。各アイテムをデータセット利用語彙[VOCAB-DUV]で表現できるように、フィードバックの各アイテムの種類、つまり、その動機(編集、分類[格付け]、コメント、質問)を取得するのも良いでしょう。

検証方法

少なくとも1つのフィードバック・メカニズムが提供されており、データの利用者が容易に発見できることを確認してください。

根拠

関連要件: R-UsageFeedback、R-QualityOpinions

メリット

再利用
理解
信頼

ベスト・プラクティス30: フィードバックを利用できるようにする。

データセットと配信に関する利用者のフィードバックを公的に利用できるようにしてください。

理由

公開者は、利用者とフィードバックを共有することで、懸念に対処していることをユーザに示すことができ、重複したバグ・レポートの提出を回避できます。フィードバックの共有は、利用者が、データの可用性に影響があるかもしれない問題を理解するのにも役立ち、コミュニティ内の共同体意識を育むことができます。

意図する結果

利用者は、データセットに影響を与えるエラーの種類を評価し、それに関する他のユーザの経験をレビューし、必要に応じて公開者が積極的に問題に対処していることを再確認できます。利用者は、すでに他のユーザが同様のフィードバックを提供しているかどうかを判断することもでき、不要なバグ・レポートを提出する手間が省かれ、管理者は重複を処理する必要がなくなります。

可能な実装アプローチ

フィードバックは、HTMLのウェブ・ページの一部として利用できますが、データセット利用語彙[VOCAB-DUV]を用いて機械可読形式で提供することもできます。

例30

  :stops-2015-05-05
      a dcat:Dataset ;
      dct:title "Bus stops of MyCity" ;
      dcat:keyword "transport","mobility","bus" ;
      dct:issued "2015-05-05"^^xsd:date ;
      dcat:contactPoint <http://data.mycity.example.com/transport/contact> ;
      dct:temporal <http://reference.data.gov.uk/id/year/2015> ;
      dct:spatial <http://sws.geonames.org/3399415> ;
      dct:publisher :transport-agency-mycity ;
      dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-A> ;
      dcat:theme :mobility ;
      dcat:distribution :stops-2015-05-05.csv 
      .

  :stops-2015-05-05.csv
      a dcat:Distribution ;
      dct:title "CSV distribution of stops-2015-05-05 dataset" ; 
      dct:description "CSV distribution of the bus stops dataset of MyCity" ;
      dcat:mediaType "text/csv;charset=UTF-8" 
      .
  :comment1Content 
      a oa:TextualBody ;
      rdf:value "This dataset is missing stop 3" 
      .

  :comment1
      a oa:Annotation ;
      a duv:UserFeedback ;
      oa:hasBody :comment1Content ;
      oa:hasTarget :stops-2015-05-05 ;
      dct:creator :localresident ;
      oa:motivatedBy oa:assessing 
      .    

  :comment2Content 
      a oa:TextualBody ;
      rdf:value "Are tab delimited formats also available?" 
      .

  :comment2
      a oa:Annotation ;
      a duv:UserFeedback ;
      oa:hasBody :comment2Content ;
      oa:hasTarget :stops-2015-05-05.csv ;    
      dct:creator :localresident ;
      oa:motivatedBy oa:assessing 
      .

  :localresident
      a foaf:Person ;
      foaf:Name "Alan Law" 
      .

検証方法

特定のデータセットや配信に関してデータの利用者から得られたフィードバックが公開されていることを確認してください。

根拠

関連要件: R-UsageFeedback、R-QualityOpinions

メリット

再利用
信頼

8.13 データの拡充

データの拡充とは、未処理のデータまたは以前に処理されたデータを強化、改良、または違った形で改善するために利用できる一連のプロセスです。この考えやその他の同様の概念は、ほとんどの現代のビジネスや企業にとってデータを貴重な資産にすることに貢献します。これは、これ自体が多岐にわたるトピックであり、詳細は現在のドキュメントの範囲を越えています。しかし、倫理上の懸念が生じる可能性があるため、これらの技術の一部には慎重な姿勢で臨むべきであることは特筆に値します。科学研究においては、結果や統計上の成果を歪めるような拡充を回避するように注意を払わなければなりません。個人に関するデータの場合、データセットを結合したときにプライバシー問題が生じる可能性があります。つまり、あるデータセットを別のデータセットで拡充することで、どちらにも個人を識別するために十分な情報が含まれていなくても、結合したデータセットはプライバシーを損なうものになる可能性があります。さらに、これらの技術は大規模に実行できるため、注意の必要性が浮き彫りになります。

この項では、データを拡充するためにデータの公開者が従うべきベスト・プラクティスをいくつか示します。

ベスト・プラクティス31: 新しいデータを作成してデータを拡充する。

データの価値の向上が見込まれる場合は、新しいデータを生成してデータを拡充してください。

理由

拡充は、特に非構造化データの処理可能性を大幅に向上させることができます。状況によっては、欠落している値を埋めることができ、既存の未処理のデータから新しい属性や測度を追加できます。データセットは、元のデータと同じ方式で結果を追加収集したり、元のデータを他のデータセットと組み合わせたりすることでも拡充できます。適切かつ倫理的に行われた場合、より完全なデータセットを公開することで、信頼性を向上させることができます。一般用途の付加価値を引き出すことにより、ユーザの時間が節約され、より多くの種類の再利用が促進されます。データを拡充するために利用できる多くの知的な手法が存在しており、データセットをいっそう貴重な資産にします。

意図する結果

欠落している値があるデータセットは、その値を埋めることで強化できます。関連する測度や属性を追加する場合は、追加によって分析結果、意義、統計力に歪みが生じない場合にのみ、骨組みが与えられ、有用性が強化されます。

可能な実装アプローチ

データ拡充の技術は複雑で、このドキュメントの範囲をはるかに越えるため、その可能性を明らかにすることしかできません。

機械学習は、データの拡充に容易に適用できます。その方法には、データ分類、明確化、エンティティー認識、センチメント分析、トピフィケーション(topification)などに焦点を当てたものが含まれます。新しいデータ値は、既存のカラム全体で数学的計算を実行すると同じくらい簡単に導き出すことができます。他の例には、空間データの特徴を識別するための目視検査と、人口統計情報のための外部データベースとの相互参照が含まれます。最後に、新しいデータの作成は、欠落している値を直接的な方法で算出する、または別の方法で決定する、要求駆動型でありえます。

推論に基づく技術で作成した値は、そのようにラベル付けをすべきで、拡充によって置き換えられた元の値を取り出すことが可能であるべきです。

ライセンスで認められている場合は常に、データを拡充させるために用いたコードをデータセットと一緒に利用できるようにすべきです。そのようなコードの共有は、科学的なデータにとって特に重要です。

拡充作業の優先度付けは、それに要する労力のみでなくデータの利用者にとっての価値に基づくべきです。利用者にとっての価値は、需要を測定すること(例えば、調査または直接的な需要の追跡)で評価できます。需要の測定方法をドキュメント化することで、価値の増加を実証できるようになります。

他の人のデータを拡充する場合は、その拡充を元の公開者に提供すると良いでしょう。

検証方法

データセットに、容易に提供できる、欠落している値がないか、他に追加フィールドが必要でないかを確認してください。推論拡充技術によって追加されたデータがそういうものとして識別され、置き換えられたデータがまだ利用可能であることを確認してください。

根拠

メリット

再利用
理解
信頼
Processability

ベスト・プラクティス32: 補完的な提示方法を提供する。

視覚化、表、ウェブ・アプリケーション、要約などの補完的ですぐに参考になる方法でデータを提示し、拡充してください。

理由

オンラインで公開されているデータは、その主題を他人に知らせることを意図しています。しかし、ダウンロードやAPIアクセス用のデータセットを掲載するだけでは、その解釈のために利用者に負担がかかります。ウェブは、ユーザが独自のツールを作成する必要なく、学習し探索できるようデータを提示する比類のない機会を提供します。

意図する結果

容易に理解できるようにデータを提示することで、補完的なデータの提示により、人間の利用者がデータを即座に把握できるようになります。

可能な実装アプローチ

即座に把握してもらうための非常に簡単な方法の1つは、HTMLページで分析的な要約を公開することです。グラフまたは表に総括的なデータを含めると、ユーザが要約にざっと目を通したり、データの意味をすぐに理解したりするのに役立ちます。

データを用いたインタラクティブな視覚化やウェブ・アプリケーションを作成する方法があれば、データの利用者がそれを理解してパターンを発見する力を高めることができるでしょう。これらのアプローチは、処理に対する適合性も示し、再利用を促進します。

検証方法

データセットに、データをダウンロードしたり、APIを呼び出したりせずに理解できる追加の解説コンテンツが付いていることを確認してください。

根拠

メリット

再利用
理解
アクセス
信頼

8.14 再公開

データの再利用は、データ公開の別の手段です。これは単に再公開するだけです。既存のデータと他のデータセットとを組み合わせたり、ウェブ・アプリケーションや視覚化を作成したり、データを翻訳などの新しい形に再パッケージ化するという形を取ることができます。データの再公開者には、その形のウェブ上の公開に特有な何らかの責任があります。この項では、データを再公開する時に従うべきアドバイスを示します。

ベスト・プラクティス33: 元の公開者にフィードバックを提供する。

データを再利用する時に、元の公開者にそのことを知らせてください。エラーを見つけた時や、提案または称賛の気持ちがある場合は、彼らにそれを知らせてください。

理由

一般的に、公開者は自身が公開したデータが有用なのかどうかを知りたがります。さらに、彼らは、データ公開業務に資源を割り当てるために利用統計の報告を求められるかもしれません。利用状況の報告は、データのリリースに向けた労力を正当化するのに役立ちます。フィードバックの提供は、公開者が将来のユーザのためにデータセットを改善するのに直接役立つため、公開者の労力に報いることになります。

意図する結果

コミュニケーションが改善すると、元の公開者は、掲載したデータがどのように利用されているかを判断しやすくなり、データの公開を正当化するのに役に立ちます。公開者は、データ改善のために取ることができる手順を認識することもできるでしょう。これによって、誰とってもより多くの優れたよりデータがもたらされます。

可能な実装アプローチ

新しい製品のデータセットを利用し始める時には、公開者の連絡先情報、利用したデータセットのURI、連絡した日付をメモしてください。これは、データセットが用いられているコード内のコメントで行うことができます。公開者が望むルートに従ってフィードバックを提供してください。ルートが提供されていなければ、データを提供しているウェブ・サイトの連絡先情報を探してください。

例33

# Calling the MyCity transit API, http://data.mycity.example.com/transport/api/docs/
# Published by MyCity Transit Agency,
# notified of our reuse by email to opendata@mycitytransit.example.org
# by Newton Calegari on 3/24/2016.

検証方法

あなたがデータを利用したことを公開者に知らせる通信記録を少なくとも1つは所有していることを確認してください。

根拠

メリット

再利用
相互運用性
信頼

ベスト・プラクティス34: ライセンス条件に従う。

データセットの元の公開者のライセンス要件を見つけて従ってください。

理由

ライセンス処理は、他人の著作物を利用するための法的枠組みを提供します。元の公開者の要件を遵守することで、公開者との友好的な関係を維持することができます。意向に従っていれば、元の公開者からの訴訟ついて心配する必要はありません。元のライセンスについて理解していると、再利用のためにどのようなライセンスを選択すべきかを判断するのに役立つでしょう。

意図する結果

データの公開者は、自身のライセンス要件に従って著作物が再利用されていると信じることができ、そのため、データ公開を継続しやすくなるでしょう。データの再利用者自身も、二次的著作物のライセンス処理を適切に行うことができるでしょう。

可能な実装アプローチ

元のライセンスを読んでその要件に従ってください。そのライセンスで二次的著作物に関して特定のライセンス処理が求められている場合は、その要件に合うライセンスを選択してください。ライセンスが提示されていない場合は、元の公開者に連絡し、どのようなライセンスなのかを尋ねてください。

検証方法

元のライセンスを通読し、データの利用がどの条件にも違反していないことを確認してください。

根拠

関連要件: R-LicenseAvailable、R-LicenseLiability

メリット

再利用
信頼

ベスト・プラクティス35: 元の公開物を引用する。

メタデータでデータの情報源に対する謝辞を示してください。ユーザ・インターフェースを提供する場合は、インターフェースで目に見える形で引用を含めてください。

理由

データは、信頼できる場合にのみ有益です。情報源の識別は、2つの方法で信頼性の主な指標です。まず、ユーザは情報源の評判からデータの信頼性を判断でき、次に、情報源の引用は、その人自身が再公開者として信頼できることを示唆します。引用は、エンドユーザへの情報提供に加え、公開者が自身の著作物の信頼性を高めるのに役立ちます。ウェブ上でデータを利用できるようにする公開者は、謝辞に値し、彼らが信頼されていることに気付けば、データを共有し続ける可能性が高くなります。また、引用は来歴を保全し、他の人がデータを処理するのにも役に立ちます。

意図する結果

エンドユーザは、閲覧したデータの信頼性を評価し、元の公開者の努力が認められるでしょう。ウェブ上のデータの来歴の連鎖は、その元の公開者にまで遡ることができるでしょう。

可能な実装アプローチ

書誌的な情報と生きているリンクを提供して、元の情報源への引用をユーザ・インターフェースで示すことができます。

検証方法

再利用されたデータの元の情報源が、提供されているメタデータで引用されていることを確認してください。人間が読める引用がどのユーザ・インターフェースでも容易に表示されることを確認してください。

根拠

メリット

再利用
発見可能性
信頼

要件	ベスト・プラクティス
R-MetadataAvailable	メタデータを提供する。記述メタデータを提供する。構造メタデータを提供する。データの来歴情報を提供する。ロケールに依存しないデータ表現を用いる。元の公開物を引用する。
R-MetadataDocum	メタデータを提供する。語彙を再利用する(標準化されたものが望ましい)。
R-MetadataMachineRead	メタデータを提供する。記述メタデータを提供する。データ・ライセンス情報を提供する。
R-MetadataStandardized	記述メタデータを提供する。語彙を再利用する(標準化されたものが望ましい)。
R-LicenseAvailable	データ・ライセンス情報を提供する。ライセンス条件に従う。
R-LicenseLiability	データ・ライセンス情報を提供する。ライセンス条件に従う。
R-ProvAvailable	データの来歴情報を提供する。新しいデータを作成してデータを充実させる。元の公開物を引用する。
R-QualityMetrics	データ品質情報を提供する。
R-DataMissingIncomplete	データ品質情報を提供する。
R-QualityOpinions	データ品質情報を提供する。データの利用者からフィードバックを収集する。フィードバックを利用できるようにする。元の公開者にフィードバックを提供する。
R-DataVersion	バージョン表示を提供する。バージョン履歴を提供する。
R-UniqueIdentifier	永続的URIをデータセットの識別子として用いる。永続的URIをデータセット内の識別子として用いる。データセットのバージョンとシリーズにURIを割り当てる。大きなデータセットにはサブセットを提供する。 APIの基礎としてウェブ標準を用いる。
R-Citable	永続的URIをデータセットの識別子として用いる。データセットのバージョンとシリーズにURIを割り当てる。大きなデータセットにはサブセットを提供する。元の公開物を引用する。
R-FormatMachineRead	機械可読な標準化されたデータ形式を利用する。ロケールに依存しないデータ表現を用いる。複数の形式で利用できるデータを提供するために内容交渉を用いる。新しいデータを作成してデータを充実させる。
R-FormatStandardized	機械可読な標準化されたデータ形式を利用する。
R-FormatOpen	機械可読な標準化されたデータ形式を利用する。
R-FormatLocalize	ロケールに依存しないデータ表現を用いる。
R-GeographicalContext	ロケールに依存しないデータ表現を用いる。
R-FormatMultiple	複数の形式でデータを提供する。複数の形式で利用できるデータを提供するために内容交渉を用いる。
R-QualityComparable	語彙を再利用する(標準化されたものが望ましい)。適切な形式化レベルを選択する。
R-VocabOpen	語彙を再利用する(標準化されたものが望ましい)。
R-VocabReference	語彙を再利用する(標準化されたものが望ましい)。適切な形式化レベルを選択する。データセットの対象範囲を評価する。
R-AccessBulk	一括ダウンロードを提供する。
R-GranularityLevels	大きなデータセットにはサブセットを提供する。
R-AccessRealTime	大きなデータセットにはサブセットを提供する。リアルタイム・アクセスを提供する。 APIでデータを利用できるようにする。
R-AccessUpToDate	最新のデータを提供する。 APIでデータを利用できるようにする。
R-AccessLevel	利用できないデータに関する説明を提供する。識別子を保持する。
R-SensitivePrivacy	利用できないデータに関する説明を提供する。
R-SensitiveSecurity	利用できないデータに関する説明を提供する。
R-APIDocumented	APIの基礎としてウェブ標準を用いる。 APIに完全なドキュメントを提供する。互換性のないAPIの変更を避ける。
R-PersistentIdentification	互換性のないAPIの変更を避ける。識別子を保持する。
R-UsageFeedback	データの利用者からフィードバックを収集する。フィードバックを利用できるようにする。元の公開者にフィードバックを提供する。
R-DataEnrichment	新しいデータを作成してデータを充実させる。補完的な提示方法を提供する。
R-TrackDataUsage	元の公開者にフィードバックを提供する。元の公開物を引用する。

ベスト・プラクティス	メリット
メタデータを提供する。	再利用理解発見可能性 Processability
記述メタデータを提供する。	再利用理解発見可能性
構造メタデータを提供する。	再利用理解 Processability
データ・ライセンス情報を提供する。	再利用信頼
データの来歴情報を提供する。	再利用理解信頼
データ品質情報を提供する。	再利用信頼
バージョン表示を提供する。	再利用信頼
バージョン履歴を提供する。	再利用信頼
永続的URIをデータセットの識別子として用いる。	再利用 Linkability 発見可能性相互運用性
永続的URIをデータセット内の識別子として用いる。	再利用 Linkability 発見可能性相互運用性
データセットのバージョンとシリーズにURIを割り当てる。	再利用発見可能性信頼
機械可読な標準化されたデータ形式を用いる。	再利用 Processability
ロケールに依存しないデータ表現を用いる。	再利用理解
複数の形式でデータを提供する。	再利用 Processability
語彙を再利用する(標準化されたものが望ましい)。	再利用 Processability 理解信頼相互運用性
適切な形式化レベルを選択する。	再利用理解相互運用性
一括ダウンロードを提供する。	再利用アクセス
大きなデータセットにはサブセットを提供する。	再利用 Linkability アクセス Processability
複数の形式で利用できるデータを提供するために内容交渉を用いる。	再利用アクセス
リアルタイム・アクセスを提供する。	再利用アクセス
最新のデータを提供する。	再利用アクセス
利用できないデータに関する説明を提供する。	再利用信頼
APIでデータを利用できるようにする。	再利用 Processability 相互運用性アクセス
APIの基礎としてウェブ標準を用いる。	再利用 Linkability 相互運用性発見可能性アクセス Processability
APIに完全なドキュメントを提供する。	再利用信頼
互換性のないAPIの変更を避ける。	信頼相互運用性
識別子を保持する。	再利用信頼
データセットの対象範囲を評価する。	再利用信頼
データの利用者からフィードバックを収集する。	再利用理解信頼
フィードバックを利用できるようにする。	再利用信頼
新しいデータを作成してデータを充実させる。	再利用理解信頼 Processability
補完的な提示方法を提供する。	再利用理解アクセス信頼
元の公開者にフィードバックを提供する。	再利用相互運用性信頼
ライセンス条件に従う。	再利用信頼
元の公開物を引用する。	再利用発見可能性信頼

要約

このドキュメントのステータス

1. はじめに

2. 対象者

3. 範囲

4. コンテキスト

5. 名前空間

6. ベスト・プラクティスのテンプレート

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

7. ベスト・プラクティスの要約

8. ベスト・プラクティス

8.1 実行例

8.2 メタデータ

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

8.3 データ・ライセンス

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

8.4 データの来歴

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

8.5 データ品質

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

8.6 データのバージョン付け

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

8.7 データ識別子

理由

意図する結果

可能な実装アプローチ

検証方法

根拠

メリット

理由

意図する結果

可能な実装アプローチ