ロボット排除【2005-04-10更新】
ロボットまたはクローラー(Crawler)と呼ばれるプログラムは、Webページに記述されているリンクを辿ってサイトを巡回し、自動的にサイト上の文書や画像などを収集、インデキシングしています。Webサーバの管理者やWebサイトの運営者は、自分たちが管理・運営するWebページをWeb検索エンジンに登録されたくない場合などに、ロボットを排除する設定を行うことができます。
|
フィールド名 | 定義 |
---|---|
User-agent | このフィールドの値には、対象となるロボット名を記述します。 値としてアスタリスク(*)を記述すると、全てのロボットを対象とします。 |
Disallow | このフィールドの値には、ロボットに訪問させたくないURLを記述します。記述した値で始まるURLが対象となります。 値はフルパス名でも部分パス名でもかまいません。例えば「Disallow: /search」と記述すると「/search.html」や「/search/index.html」などを排除しますが、「Disallow: /search/」と最後にスラッシュを付けて記述すると「/search/index.html」は排除しますが「/search.html」は排除しません。 値を記述せずに「Disallow:」のみを記述した場合は、全てのURLに対して訪問を許します。 |
User-agent: *
Disallow:
※または、「robots.txt」ファイルを作成しない。
User-agent: *
Disallow: /
User-agent: *
Disallow: /internet/
Disallow: /av.html
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
※第1レコード(最初の2行)で全てのロボットがサイト全体を訪問しないように記述し、空白1行に続いて、第2レコード(次の2行)で「Googlebot」がサイト全体を訪問するように記述するという、2組のレコードの組合せで定義します。
「robots.txt」をWebサーバのルート・ディレクトリに置けない場合は、必要な全てのHTMLにメタタグを記述することでロボットを制御することができます。
<head>
<meta name="robots" content="index,follow">
<title>・・・</title>
</head>
値 | 定義 |
---|---|
index | ページの情報をインデキシング(登録)することを許す。 |
noindex | ページの情報をインデキシングすることを許さない。 |
follow | そのページに記述されているリンクを辿る(追跡する)ことを許す。 |
nofollow | そのページに記述されているリンクを辿ることを許さない。 |
all | ページの情報をインデキシングし、そのページに記述されているリンクを辿ることを許す(つまり、「index,follow」)。 |
none | ページの情報をインデキシングすることも、そのページに記述されているリンクを辿ることも許さない(つまり、「noindex,nofollow」)。 |
<meta name="robots" content="index,follow">
または、
<meta name="robots" content="all">
または、メタデータを記述しない。
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="noindex,nofollow">
または、
<meta name="robots" content="none">
※「robots.txt」には従ってもメタタグには従わないロボットが存在しています。
ポイント
ロボットによっては、下記のような値を定義しているものもあります。
<meta name="robots" content="noarchive">
<meta name="Googlebot" content="noarchive">