ビクター・マイヤー＝ショーンベルガーとケネス・クキエの「ビッグデータの正体」（講談社）を読んだ、というかあまり面白くはなかったので斜め読みである。

ビッグデータというのは一昔前のサンプルデータに照らし合わせた用語であって、要するに全部のデータという意味である。統計学は背後に想定される採取不可能な巨大データの性質を推定するために、少数のサンプルデータの解析で済ませるための方法である。その肝は無作為抽出である。注意深く採取されさえすれば、少数のデータの解析からかなりの精度で全体の性質が判る。最近では、更にその解析を一歩先へ進めて因果関係モデルの検証まで出来るようになってきている。また少数データを採取する前の段階で何らかの確信があれば、それを少数データがどういう風に修正したり強化したりするのか、という立場での解析（ベイズ統計）も流行している。それらはある目的、つまり想定されたモデル（多くは因果関係のモデル）の確からしさを実証するための手段であり、その目的に応じて無作為性の条件が厳密に定義されてくる。医薬の効果を判定するための臨床実験がその典型である。したがって、あらかじめ想定した目的以外の副産物（因果関係等）が得られることは考えにくく、たとえ得られたとしてもそれを証明するためにはそれなりにサンプル採取からやり直す必要がある。

しかし、パソコンとネットワークと記憶装置の急激な進歩によって、データの採取が極めて容易でしかも自動的になってきていることから、そのような統計手法が必ずしも必要とはされなくなっている。最初から殆ど全てのデータが採取できるのであれば、そこから変数間の相関関係を探り出すというやりかたの方が効率的である。データの不備についてもそれほど気を遣う必要はない。そこで発見される相関関係は勿論因果関係ではないし、むしろそうではない場合が殆どである。そもそも因果関係というのは人間の側の都合に依存している。相関関係がある以上は容易には確認できない事象に対する随伴的な指標として有用である。多くの例が挙げられたが、最初の例はインフルエンザの流行である。保険局が各地のクリニックからデータを集計してインフルエンザの流行を把握するよりも、googleの検索語から相関関係を利用して推定する方がずっと早いし正確であるということが判った。人々は風邪にかかればインターネットで検索して調べるからである。インターネット企業の明暗はこのようなことを自覚していたかどうかにかかっていた。google、amazon、facebook といった成功している企業はインターネットから自動的に集積されるデータを別の目的に利用することに長けていたからこそ生き残ったのである。ビッグデータの価値というのは採取されている段階では未知であるが、アイデアに依存していて、後々どんな宝に生まれ変わるか判らない。情報の利用というものが新しい歴史的段階に達したということである。

現在行われている個人データの収集は収集時にその人の許可を得るというやりかたで正当化されているが、実を言うとこれはあまり意味がない。その時点では情報の利用目的も価値も判らないからである。ビッグデータの場合その利用者がその都度利用目的に責任を負うべきものである。もっとも大きな争点は犯罪などの予見である。個人について集積されたビッグデータからその人が近い将来犯罪を犯す確率が高い（相関係数から結論される）として、その人を逮捕できるだろうか？勿論逮捕は出来ないのだが、その人の入国拒否はどうだろうか？これに近いことは実際に行われている。ビッグデータが一人歩きする危険性があるのである。そういうことが起きないようにするための専門家が必要となる。過去において技術革新によって産業資本主義が勃興したとき、その害悪を抑制するために独占禁止法が作られたのと同様に、ビッグデータの乱用に対してもそれなりの法律が必要となるだろう。仮説を立てて整備された実験条件を設計して実験で検証ないし否定していく、という科学の手法そのものは勿論有用であるが、ビッグデータの利用というのはそういう面倒なプロセス無しに一気に有用な結論を得るという意味で、確かに新しい時代ではあるが、反面危うさを孕んでいる。
＜目次へ＞＜一つ前へ＞＜次へ＞