読書メモ

・「SPIDERING HACKS 〜ウェブ情報ラクラク取得テクニック101選
(Kevin Hemenway、Tara Calishain:著、村上雅章:訳、O'reilly Japan \3,500) : 2004.10.24

内容と感想:
 
「O'reilly」の「HACKS」シリーズ。
 インターネットの世界では様々なWebサイトが公開されている。広大な情報の海に喩えられる。そこから自分に必要な情報だけを効率的に取得する技。それが本書の題名にもなっている「SPIDERING」という行為である。それ自体が「HACK」のようなものだ。ブラウザであるページを閲覧するとき人間の目にはHTMLファイル中のタグまでは見えない。実際にサイトから送られてくるデータにはたくさんのタグが埋め込まれているのだが、これは人間にとっては必要な情報ではない。そこでHTMLファイルからタグを除去して必要なデータだけを抽出する、というのはなかなか大変なことで、PCにやらせるにはプログラミングをする必要がある。本書ではそれをPerl言語でやらせようと、101個のTipsを紹介している。Perl は文字列を扱うのが得意な言語であるから、この手のHACKには最適らしい。複数のWebサイトの情報を組み合わせて、自分の好きなように再構成したり。
 中でも面白かったのは歌詞が取得できるサイトから歌詞を取得し、これを音声合成サイトに送ってPCに歌を歌わせよう、というもの。まだ確かめていないが、そんなサイトがあることすら知らなかったから。
 注意しなければいけないのは、他人のサイトのデータを加工した場合のそのデータの取り扱い(著作権)、場合によっては大量のトラフィックを発生させたり(サイトの負荷を上げる行為)、と必ずしもサイト管理者側から見れば喜ばしい行為ではないのだ。実は私もある競馬情報サイトからJRAのレース開催日に、その日の出馬表を取得して、ブラウザで見られる競馬新聞形式に構成し直すフリーソフトを公開していたが、そのサイトからクレームがついた。最大の問題は多くのユーザがこのソフトを使うことで、サイトへのアクセスが急増することであった。その恐れは私も意識の中にはあったが、ソフトのユーザがそれほどあるとは正直、思っていなかったから、止む無く現在はソフトの更新を控えている次第。

-目次-
1章 ウォーミングアップ
2章 道具を揃える
3章 メディアファイルの収集
4章 データベースからのデータ収集
5章 コレクションを維持管理する
6章 世の中に還元する

更新日: 04/11/06