本記事は『国立国会図書館月報』490号(2002.1)より転載したものです。
複製には国立国会図書館の許諾が必要です。


北欧諸国におけるウェブ・アーカイビングの現状と納本制度

廣瀬 信己

一 はじめに

 インターネット等の情報通信ネットワークを介して流通するオンライン情報資源は、質・量ともに日々拡大している。これらの情報資源をどのように収集、蓄積、保存していくべきか、またどのように納本制度に組み込んでいくべきかは、今や世界の多くの国立図書館における共通の課題である。
 筆者は平成一三年一一月一一日から同月二四日まで、特に先進的な取り組みを行っているフィンランド、スウェーデン、デンマークの各王立・国立図書館を訪問し、ネットワーク系電子情報、とりわけワールド・ワイド・ウェブ上の情報資源(以下「ウェブ情報」という)に関わる業務モデルおよび納本制度等を中心に調査を行った。

二 フィンランド国立図書館の取り組み

 フィンランド国立図書館は現在、一国全体のウェブ情報を一括して収集(以下「バルク収集」という、注1)するプロジェクトを進めており、二〇〇三年一月施行を目標にワーキンググループを設置して納本制度・著作権法を改正する準備を行っている。選択的収集ではなくバルク収集を行う方針を採った理由としては、
(1)将来においてどのような情報が価値を持つかについて、現時点で判断を行うことは困難であること
(2)紙媒体の資料について網羅的収集を行っているにもかかわらず、ウェブ情報について選択的収集を行うことは論理的一貫性を欠くこと
などが挙げられる。責任者のユハ・ハカラ氏は、「たとえレストランのメニューであっても、当時の食生活を知る貴重な資料であり、個々のウェブ情報について国立図書館が要・不要の価値判断を下すことは適切ではない」と述べている。
 検討中の新納本制度においては、「オンライン資源(online resources)」は「自由アクセス資源(freely accessible online resources)」と「制限アクセス資源(access protected online resources)」とに分けられる。

(1)自由アクセス資源
 自由アクセス資源とは、公のコンピューターネットワーク上で自由にアクセス可能なオンライン資源であり、ウェブ情報の多くはこれに該当する。自由アクセス資源は、フィンランド国立図書館もしくはその委託を受けた団体が自動収集(harvest)する予定であり、現在既に実験的にバルク収集が行われている。その仕組みは、約一万の起点からウェブ・ロボット(注2)を走らせ、「.fi」ドメインのウェブを網羅的に収集し、収集後MD5(注3)と呼ばれる技術によって重複チェックをかけ、整合性のある一国のウェブ情報の集合体を作り上げる、というものである。ウェブ・ロボットは「ヨーロッパ納本図書館ネットワーク(NEDLIB)」(注4)において開発した「NEDLIBハーベスタ」(注5)を用いており、またより効果的に一国全体を収集するために、起点は民間の団体と交渉の上、入手している。収集日やサーバーの応答記録等のメタデータが一ファイルごとに自動生成され、原本性はMD5によって確保している。ロボット排除が設定されているサイトについては、現在のロボット排除設定が主にサーチエンジン等を念頭においてなされていることから、無視しているとのことであった。収集頻度は現在のところ年一回程度だが、今後は年二~三回、重要なものについては年五~六回行いたいと考えているとのことである。「.com」など、「.fi」以外のドメインをもつフィンランドのサイトについては今のところ収集していないが、今後は言語等によって識別するシステムの開発も検討している。利用・提供についてはまだまったく検討していないが、NWA注6)においてノルウェー国立図書館が中心となって開発中の「FAST」と呼ばれる全文検索エンジンを用いることになる可能性が高いとのことであった。また保存については、ハカラ氏によると、現在のロボットで収集する限り、ウェブ情報のほとんどはhtmlやgifなど比較的保存が容易なファイルによって構成されているため、特に検討する必要はなく(注7)、むしろ問題なのは媒体の耐久性や再生装置の消滅が懸念されるパッケージ系電子出版物の方であるとのことである。

(2)制限アクセス資源
 制限アクセス資源とは、公のコンピューターネットワーク上においてその使用が技術的に制限されたオンライン資源である。制限アクセス資源は、その資源の出版もしくは流通に責任をもつ発行者が一部納入することとなる予定であり、図書館は受入可能なフォーマットのリストを維持し、発行者は当該情報資源を受入可能なフォーマットに変換する義務を負う。納入が技術的に困難な資源についてはパスワード等を図書館に通知する義務を発行者に課し、少なくとも図書館からのアクセスを可能とする方向で検討中である。実際の納入方法についてはケース・バイ・ケースであり、たとえばe-book(注8)についてはftp(注9)によって転送、また新聞についてはデータベースから記事ごとにPDF形式で吐き出すシステムを採用することになるだろうとのことであった。現在ガイドラインを策定中である。

三 スウェーデン王立図書館の取り組み

 スウェーデン王立図書館は、世界で最も早くウェブ・アーカイビングに取り組んだ図書館のひとつであり、一九九六年夏に「Kulturarw3」(注10)と呼ばれるプロジェクトを開始し、今も継続中である。

(1)Kulturarw3
 Kulturarw3もまた、スウェーデンの一国全体のウェブ情報をバルク収集するプロジェクトである。「Kulturarw」は「文化遺産(cultural heritage)」の意味であり、責任者のヨハン・マンネルハイム氏によれば、九六年当時はまだ「ウェブが文化遺産である」との認識が一般的ではなかったため、あえてそのような名前にしたとのことであった。王立図書館がウェブ情報を自動収集できるように納本制度・著作権法を改正する予定であり、著作権についてはEU共通の指針に従うべく、その検討結果を待っている段階である。ウェブはハイパーリンク関係によって構成されているがゆえに起点は一つで十分であるとの考え方を採っており、ウェブ・ロボットは「COMBINE」を用いている。収集日やMD5等のメタデータが一ファイルごとに自動生成され、原本性はMD5によって確保している。ロボット排除が設定されているサイトについては、現状では法的問題が不透明であるため収集していないとのことであった。「.se」以外のドメインをもつスウェーデンのサイトについては、電話番号等で識別するシステムの開発を検討したこともあったが技術的に難しく、妙案はないとのことであった。利用・提供や保存についてはまだ未検討である。セキュリティ(注11)については、担当者のアラン・アーヴィドソン氏によれば、ウイルスやスクリプトの多くは収集しただけでは実行されないため、むしろ利用・提供の段階で検討すべき問題ではないかとのことであった。

(2)その他の取り組み
 ウェブ情報に関する書誌的なメタデータについては、メタデータの付与システムをウェブ上に公開し、ダブリン・コア準拠のメタデータを付与するように発行者に呼びかけを行っている。粒度(注12)に関する基準は特になく、発行者次第であるとのことだ。
 また、e-bookやオンラインの学術出版物については、二~三の発行者と合意を結び、ftpによって収集を行っている。

四 デンマーク王立図書館の取り組み

 デンマーク王立図書館では一九九七年六月にいち早く納本制度が改正され、現在ウェブ上の静的著作物(static work)の納入が既に実施されている。また、「netarchive.dk」(注13)と呼ばれるプロジェクトを進めており、ウェブ収集関連だけで少なくともイベントベース収集、バルク収集、動的ウェブ収集の三つの取り組みを行っているほか、積極的に国際協力も進めている。以下、順を追って紹介することにしたい。

(1)納本制度に基づく静的著作物の収集
 静的な著作物(static work)とは、「完成しかつ独立した単位とみなされる有限の量の情報(delimited quantity of information which must be considered a final and independent unit)」と定義され、本定義を満たすウェブ情報であればフォーマット等は問わない。ウェブ上で静的著作物が発行された場合には、発行した旨を納本制度機関に通知する義務が課されており、具体的には、デンマーク王立図書館のウェブサイト内にあるフォームから、タイトルや著者、URL、パスワード、フォーマット等を入力できるようになっている。なお、元のウェブ情報にダブリン・コア等に準拠したメタデータが埋め込まれている場合には入力を省略できる。通知を受けた王立図書館は当該著作物をウェブ・ロボットによって収集する。ウェブ・ロボットは「Danish Robosuite」もしくは「wget」を用いており、起点や粒度は原則として発行者の通知に基づく。ロボット収集の深さは多くの場合特に指定せず、特定ディレクトリ以下をすべて収集する方法をとっているため、不要な情報も多数含まれる可能性があるが、特に除去等の対策はとっていない模様である。利用・提供は「モンク」と呼ばれる館内のスタンド・アローン端末一台のみで可能であり、有料の情報が多数含まれているためインターネット上での提供は今のところ予定していない。「REX」というOPACで紙資料との統合検索が可能であり、印刷は可能だがダウンロードは禁止である。
 このように先進的な取り組みを行っているデンマークであるが、責任者のビルギット・ヘンリクセン女史によれば、この制度は必ずしもうまく機能していないようである。その理由としては、
(1)何を以って「静的」とするかの判別は難しく、またかつて静的著作物として納本されていた資料がサイトのリニューアル等によって突然動的な著作物に変更される場合も多く、「静的」という規定自体に限界があること。
(2)発行者が通知を怠ること。特に、初版が適正に通知されることはあっても、改訂版まできちんと通知する発行者はほとんどいない、とのことである。
(2)当初の予想をはるかに越えて人手による労働力を必要とすること。
などが挙げられる。このためデンマーク王立図書館では現在納本制度を再改正する準備を進めており、よりコストと便益のバランスを重視しながら、人手を用いない形での自動的な収集方法を検討している。
 また、ハイパーリンクによって文字通り蜘蛛の巣のように全体が関係づけられたウェブにおいて、「一冊」の範囲を人為的に定め、著作物を個別に収集しようとすると、「いろいろとおかしなことが起きる」(ヘンリクセン女史)ことも、現在の納本制度が持つ問題点の一つである。

(2)バルク収集、イベントベース収集
 新たな納本制度に組み込むべく、現在準備が進められている収集方法の一つが、フィンランドやスウェーデンと同じく、バルク収集である。ウェブ・ロボットはフィンランドが開発した「NEDLIBハーベスタ」を試験的に用いており、起点はドメイン管理団体より入手している。当面「.dk」ドメインのサイトを対象とし、頻度は年二~三回を予定しているとのことである。
 さらに、デンマークは国家的なイベントにあわせてその関連するウェブ情報を収集するプロジェクトも進めており、一一月二〇日に実施された総選挙にあわせ、その選挙関連のウェブを収集したとのことであった。起点は職員がネットサーフィンして定めており、頻度は一日一回以上である。
 バルク収集、イベントベース収集ともに新納本制度に組込予定であり、利用・提供はやはりNWAの全文検索エンジンを用いることになるようだ。セキュリティ・原本性については未検討であり、保存についてはフィンランドのハカラ氏と同じく、検討する必要はないとのことであった。

(3)動的ウェブの収集
 さて、デンマーク王立図書館はさらに驚くべき野心的なプロジェクトにも乗り出そうとしている。それはオンライン・サービスなどの「高度に動的な(extremely dynamic)」ウェブの収集をも検討している、ということである。ヘンリクセン女史は、「ロボット収集できるウェブは単なる『情報』に過ぎず、スクリプトやフラッシュなどが氾濫する現在のウェブにあって、ウェブの使用経験(the way you use the web)を保存することこそが、真の『文化遺産(cultural heritage)』となる」と力説しており、これには筆者も正直面食らった。王立図書館ではこの動的ウェブ収集のことを「フィルミング(filming)」と呼んでおり、どうやらウェブの使用経験をカメラで撮影するように記録に残していこうというプロジェクトのように推察される。具体的な方法については二〇〇一年のクリスマス後に検討を開始するとのことであるが、今後の動向にはぜひ注目したいところだ。

(4)国際協力
 デンマーク王立図書館はウェブ・アーカイビングの分野で積極的に国際協力を進めている。二〇〇一年六月に、スウェーデンのアーヴィドソン氏、オーストラリア国立図書館でPANDORAプロジェクト注14)に関わっているワーウィック・キャスロー氏等を招へいし、国際会議「現在を未来へと保存するために―インターネットに対する戦略」注15)を開催した。
 また、二〇〇一年九月にドイツのダルムシュタットで開催された「第五回電子図書館の研究と最新技術に関するヨーロッパ国際会議(ECDL2001)」(注16)においては、米国議会図書館でミネルヴァ・プロジェクト注17)を担当しているキャシー・アメン女史、フィンランドのハカラ氏、フランス国立図書館でウェブ・アーカイビング注18)を担当しているジュリアン・マサネス氏等と業務交流を行っている。

五 まとめ

 以上、北欧三カ国のウェブ・アーカイビング関連プロジェクトをまとめたものをに示す。
 各国とも、総じて整理や利用・提供への関心は低い。こうしている間にも目の前で日々現れては消えてゆくウェブ情報をとにかく消滅する前に収集することが先決かつ喫緊の課題であり、整理や利用・提供にまでまだ手が回っていないということであろうか。スウェーデンのマンネルハイム氏も利用・提供は「優先度が低い(low priority)」と断言していた。資料は利用に供されてこそ初めて意味を持つが、利用以前に資料自体がこの世に存在しないのでは元も子もない。限られた資源と時間の中で、優先順位をしっかりと定めて取り組むことが肝要であろう。
 また、スウェーデンを訪問中、ウェブ情報について「online publication(オンライン出版物)」という言葉を使って質問したところ、アーヴィドソン氏から「ウェブはpublication(出版物)ではない」との指摘を受けてしまった。二〇〇〇年に策定された国立図書館長会議の納本制度ガイドライン注19)においても、「published or produced(出版または生産)」という表現が随所にみられる。従来、図書館は主に「出版」物を収集してきたが、今後は旧来の発想にとらわれない新たな考え方を検討する必要があるのかもしれない。
 さらに、納本制度とあわせ、国立図書館がウェブ情報をロボット収集できるように著作権法をも改正する必要がある、というのも北欧諸国の一致した見解であった。著作権に関しては「EU Copyright directive」と呼ばれるEU諸国共通の著作権に関する指針が現在検討されており、各国立・王立図書館ともその検討結果を待っている段階である。

六 おわりに

 当館では現在、ネットワーク系電子情報を収集・組織化するシステム「WARP」(仮称、「Web Archiving Program」の略)を開発中であるほか、今後の制度的・法的枠組みについては納本制度審議会において検討する予定である。また、二〇〇二年一月三〇日には、米国議会図書館、デンマーク王立図書館、オーストラリア国立図書館等から関係者を招へいし、「文化資産としてのウェブ情報―ウェブ・アーカイビングに関する国際シンポジウム」(注20)を開催する。ウェブ・アーカイビングをめぐる国際的な動向は極めて進展が急である。今後とも弛みない調査研究と迅速な実践が不可欠であろう。


表 北欧各国のウェブ・アーカイビングの現状

フィンランド スウェーデン デンマーク
(静的著作物)
デンマーク
(バルク)
対象 一国ウェブ全体 一国ウェブ全体 ウェブ上の静的著作物 一国ウェブ全体
収集方法 ロボット収集 ロボット収集 主にロボット収集 ロボット収集
位置付け プロジェクト プロジェクト 納本制度 プロジェクト
起点 民間団体より入手 1 発行者通知に基づく ドメイン管理団体より入手
ロボット NEDLIBハーベスタ COMBINE Danish Robosuite, wget NEDLIBハーベスタ
メタデータ 一ファイルごと自動生成 一ファイルごと自動生成 発行者通知に基づき付与 (不明)
頻度・タイミング 年1回以上 年2回程度 発行者通知に基づく 年2~3回
更新チェック --- --- 発行者通知に基づく ---
フォーマット すべて すべて すべて すべて
セキュリティ 未検討 検討不要 未検討 未検討
原本性 MD5 MD5 未検討 未検討
利用・提供 未検討 未検討 館内提供 未検討
保存 検討不要 未検討 検討不要 検討不要
今後の見通し 納本制度改正を予定 納本制度改正を予定 見直しが必要 納本制度再改正を予定

(注1)ここでは主にウェブ・ロボットによって技術的に収集可能なウェブ情報を指す。実際には、データベースの内容等、ロボットによって技術的に収集不可能なウェブ情報も存在する。
(注2)ウェブ・ロボットとはウェブ情報を自動的に収集するためのソフトウェアで、起点となるURLを指定すると、再帰的にハイパーリンクをたどりながら指定された深さまで収集を行う。サーチエンジン等で用いられるインデキシング用のものとウェブ・アーカイビングに用いられるアーカイビング用のものとがある。「ハーベスタ」「ウェブ・クローラー」「ミラーリング・プログラム」などともいう。
(注3) Message Digest 5。認証やデジタル署名などにおいて改竄等を防ぐために用いられるハッシュ関数(一方向要約関数)の一種。
(注4) Networked European Deposit Library。オランダが中心となって推進しているヨーロッパの納本図書館間の国際協力プロジェクト。http://www.kb.nl/coop/nedlib/参照。
(注5) http://www.csc.fi/sovellus/nedlib/参照。
(注6) The Nordic Web Archive。北欧の国立図書館間によるウェブ・アーカイビングに関する共同プロジェクト。http://nwa.nb.no/参照。
(注7)テキストファイル等の比較的保存が容易なファイルであっても、電子データのビットの連鎖自体を保持するために、一定期間経過ごとに古い媒体から新しい媒体へと電子データの複製を行う等の措置はもちろん必要である。
(注8) e-bookについてはさまざまな定義があるが、ここではネットワークを通じて提供される電子書籍のこと。インターネット上で購読するもののほか、専用のソフトウェアや端末で閲覧するものも多い。
(注9) File Transfer Protocol。インターネットなどのTCP/IPネットワークでファイルを転送するときに使われる代表的なプロトコルの一つ。フィンランド国立図書館では暗号技術によってセキュリティを高めたftpを使用している。
(注10) http://kulturarw.kb.se/html/kulturarw3.eng.html参照。また、IFLAエルサレム大会でも詳しい発表がなされている。http://www.ifla.org/IV/ifla66/papers/158-157e.htm参照。
(注11) ここでいう「セキュリティ」とは、主に収集した情報そのものに含まれる悪質なプログラム等に起因する問題を指す。
(注12)もともとは粉状物体の粒子の大きさの度合の意味だが、ここではウェブ情報にメタデータを付与する際に、どの程度の大きさの情報量を一単位として扱うかの度合を指す。
(注13) http://www.netarchive.dk参照。
(注14) オーストラリア国立図書館における先駆的なウェブ・アーカイビング・プロジェクト。http://pandora.nla.gov.au/に公開されている。
(注15) http://www.deflink.dk/arkiv/dokumenter2.asp?id=695に議事録が公開されている。
(注16)http://www.bnf.fr/pages/infopro/dli_ECDL2001.htm参照。
(注17)米国議会図書館で開発されたウェブ・アーカイビングのためのプロトタイプ。http://www.rlg.org/preserv/diginews/diginews5-2.htmlに詳しい解説がある。
(注18) フランス国立図書館のウェブ・アーカイビングについてはhttp://www.bnf.fr/pages/infopro/ecdl/france/sld001.htmにプレゼンテーションがある。
(注19) Guidelines for Legal Deposit Legislation。http://www.unesco.org/webworld/publications/legaldeposit.rtf参照。
(注20)http://www.ndl.go.jp/ndl_frm_site_7_1_sympo.html参照。


(ひろせ のぶき 国立国会図書館総務部企画課電子図書館推進室)
email:nhirose@ndl.go.jp