Scribbles.?雑文集》 2000年5月23日

ウェブは世界中どこまでも繋がりあっているというわけではない――という研究結果が発表され、様々に報じられた

内田明 <uchida@happy.email.ne.jp>

2000年5月13日 www.zdnet.com 発

Net not as interconnected as you think より

If you think the World Wide Web is an information superhighway system, think again: The Web's most extensive mapping project shows that Internet traffic tends to flow in a strong one-way direction - and for most sites, online users would find that "you can't get there from here."

The study, conducted by researchers at IBM, Compaq and AltaVista, is to be presented at scientific conferences next week. It builds on previous research into the structure of the World Wide Web and argues against the widely held impression that the entire Internet is highly interconnected.

2000年5月15日 www.zdnet.co.jp 発

「ネットは双方向」の認識は誤り? WWWの構造研究発表へ より

もしもWWW(World Wide Web)が情報スーパーハイウェーだと思っているのなら,考え直した方がいい。Webの構造を解明するための研究から,「インターネットトラフィックは一方通行になりがち」であり,オンラインユーザーは,ほとんどのサイトの「通行手段を提供されていない」との結論が導き出された。

この研究はIBM, Compaq,AltaVistaの研究者が実施し,アムステルダムで今週開催の会議「International World Wide Web Conference」で発表される予定のもの。WWWの構造に関する以前の研究をベースに,「インターネット全体は高度に相互接続されている」という世界共通の認識に対して反論を突き付けている。

もしも World Wide Web (ウェブ) = インターネットだと思っているとしたら、勉強し直した方がいい。ウェブはインターネットの利用形態の1つであるにすぎない。また、インターネットの“スーパーハイウェイ”化 (広帯域化)が進むとウェブにおいて何がどうなるかというと、“転送速度が早くなって嬉しい”のであって、HTMLやXHTMLの単純リンクに依っているウェブのリンク機構が複数の方向性や複数の終点を持てるようになるかどうかということとは全く関係がない。ウェブの拡張リンク方式については、W3CがXLINK仕様を開発中であり、拡張リンク方式は帯域幅に依存しない機構である。

ついでに言うと、“ネットが「双方向」である”というようなことが語られる場合、それは、放送や印刷出版などのメディアにおいては“発信者”“受信者”という立場の分離が明瞭であるのに比べて、インターネットでは比較的容易に誰もが“発信者”にも“受信者”にもなれる、というような文脈であって、“相互リンク”とは関係がなさそうだ。

更に言うと、“IPトラフィック”の非対称性については、INTERNET magazine 2000年6月号に、「NTTコミュニケーションズの世界戦略」と題する興味深い記事があり、またインターネット回線の接続における非対称性については、5月23日付朝日新聞朝刊及び22日付asahi.comに、インターネット国際回線費用、「米国も応分の負担を」という、これまた興味深い記事がある。両者とも、“ウェブ”の相互接続に関する話題とは、異なる話題である。

それはさておき、World WideなWebというコトバの字面や、狭い範囲での個人的な実感から、何とはなしに、“ウェブは世界中で蜘蛛の巣状に繋がっている”と感じられたり、説明されていたりする。しかし、本当に蜘蛛の巣状なのであろうか? 実際のところは、どんな構造が編制されているのだろう?

ウェブの繋がり具合に関する研究

実際の構造や大きさを計る試みは幾つかあったようだが、今回、IBM・Compaq・AltaVista連合チームが、過去最大規模でウェブの構造と大きさの計測、すなわち“ウェブの地図づくり”に挑み、“ウェブは世界中どこまでも繋がりあっているというわけではない”ことを明らかにした。

以下では、連合チームがどういうことを明らかにしたのかを理解するために、過去の研究と比べてみるとしよう。

直径19クリック説

今回の研究報告でも言及されている過去の試みの1つに、ノートルダム大学の研究チームがnature誌の1999年9月9日号(通刊401号)で発表した、「Diameter of the World-Wide Web」がある。そこでは「ウェブの“直径”は19クリックである」と結論づけられている。(この研究については、www.zdnet.co.jpでも報じられている。)

ウェブの“直径”とは何か。例えば10個のウェブページが、隣り合ったページの間のみが結ばれている10角形状のリンク関係を持っている場合、任意の2ページ間を結ぶ最短距離の平均値は、3クリックということになる。ここで10個のウェブページが一筆書きの星のような形状のリンク関係を持っている場合、任意の2ページ間を結ぶ最短距離の平均値は、2クリックになる。この、“ウェブにある任意の2ページ間を結ぶ最短距離の平均値”が、ウェブの“直径”であり、約15億ページが存在すると見られた1999年のウェブの直径は19クリックであるとするのが、ノートルダム大学チームの研究である。

上に述べた例から予想がつくように、ウェブの直径はリンク関係が描き出すウェブの形状と極めて密接な関係を持つ。しかし10億という桁に及ぶウェブの全ページを計測することは不可能に限りなく近く、“検索エンジンに現在登録されているページの数と同じ数のページが時々刻々生まれている”という“生きた姿”を捉らえることなど完全に不可能なので、形状については小規模な調査に基づく推理に頼ることとなる。

ノートルダム大学チームの研究は、まず、比較的小規模なサイトと考えられるnd.eduドメインの全ページ(325,729ページ)と全リンク(1,469,680リンク)を調べ、図式的に言うと、各ページ(=頂点)がリンク(=辺)によって、“すべての頂点が直接結びつき合っているわけではないが、任意の頂点を出発して他の頂点を辿れる状態”で結びついている関係であるようなモデルを作成した。

すべての頂点が直接結びつき合っているわけではないが、任意の頂点を出発して他の頂点を辿れる状態の図

研究チームは、サイトに含まれるページの数と、ページから“出て行く”リンクの数、ページへ“やって来る”リンクの数の関係が、より大規模なサイト・サイト群(総計約4000万ページ)においても比例的な関係にあることを確認し、例えて言うなら若木と大木のような違いであると認識した。そこで、サイト群においても、すべての頂点が直接結びつき合っているわけではないが、任意の頂点を出発して他の頂点を辿れる状態を想定し、ウェブの全ページにおける任意の2ページ間を結ぶ最短経路の平均値を求めたのであった。

ウェブ活用のためにはマクロ構造が問題なのだ

直径19クリック説については、検索ロボットのエンジニアから、問題なのは“直径が11なのか19なのか7.5なのか”ではなくて“マクロで見て構造がどうなっているか”なのだ、という批判がなされている。(19クリック説について報じた“1.5 billion Web pages linked by 19 clicks of separation”中の、Oren Etzioni発言を参照のこと。)

ロボット系検索エンジンは、“リンクを辿る”ことによって関連情報をデータベースへと収集するような仕組みになっている。そこで、ウェブを上手に利用するためには、“世界の果てまで辿りつくせるのか”といったことや、“効率的に辿るにはどうすればいいか”といった、ウェブのマクロ構造を知ることの方が遥かに重要な課題と考えられるのである。

ウェブのミクロ構造を考えれば、現在のリンク方式が“1つの方向性と2つの端点(始点と終点)”で成り立っている以上、“すべての頂点(ページ)が辺(リンク)で結ばれているけれども、リンクの方向性を考えれば辿りつけないページが存在する”という状態が、十分にあり得る。当然その可能性は、より大きな範囲で考えても、十分にある。

IBM・Compaq・AltaVista連合チームが解明したマクロ構造

今回の連合チームは、約2億(203,549,046)のページと15億のリンクを調査し、まずは2億の頂点(ページ)と2億強の辺(リンク)から成る網を描き出した。そして、得られた辺(リンク)の“方向性”を勘案すると、次の内容が明らかになったという。

この関係を図示した研究レポートにある図を、更に簡略化してみると、次のようになる。

小さい範囲では行き来できるようなリンクがあるかもしれないし、ないかもしないが、2億ページという巨大な網の中では「行き来できる範囲」と「行けるけど帰って来れない範囲」、「行けない範囲」が存在するというのである。

ニュースには早さも重要だろうけれど情報の正確さをも重視して書いてくれ

連合チームの研究成果に関するまとめは以上である。研究成果からどのような教訓を引き出すかについては本稿は触れないが、こうしたトピックを報じる専門記者の方々に頼みたいことがある。1分1秒を争い、早くニュースを流したい気持ちは解るが、もっと正確な情報を提供して欲しい。

冒頭で皮肉った点については翻訳記事の誤りではなく元記事の誤りなので、翻訳者に文句を言う気はない。元記事内容の半分はインタビュー等も含め非常に充実した内容であるだけに、ライターの筆の滑りが惜しまれる。

連合チームの研究成果についてはimpressのINTERNET WATCHでも報じられている(5月12日付、Webの「地図」の研究成果が公表。10%はリンクされていない)。

この記事は研究内容がどんなものであるかのみを素直に伝えようと試みている点で冒頭の記事よりも好感が持てるのだが、「比較的小さなサンプルに基づいて行なわれてきた以前の調査では、Webのほとんどが19の部分に分かれ、互いに密接につながっていると分析されてきた。しかし5億ページのサンプルに基づく今回の新しい研究では、Webが全体として4つの領域に分かれて存在しており、それぞれの領域にはほぼ同数のページが含まれているという結果が得られた。」とする報じ方は誤りである。前述した“直径19クリック”理論が言う「19 degrees of separation」あるいは「19 clicks of separation」は、“ウェブの任意の2ページ間の平均距離が19クリック分だけ離れている”ことを指すのであって、今回の研究が“ウェブはその繋がり具合によって4つのページ群に分類できる”としていることとは“全く異なる”内容を言っているのである。同記事が参考リンクとして掲げている元記事が言っている“以前の研究”の記事を読めば、簡単に理解できることなのだが…。


2000年5月23日 内田明
email: uchida@happy.email.ne.jp