[ 管理人編集 ]
robots.txt
robots.txtは、ロボットのためのファイル
アクセスログの確認
アクセスログを見る環境を持っている人は、分かっているはずだが、ロボットは、最初にサイトトップのrobots.txtにアクセスする。
アクセスの許認可
ロボットは、Webサイトを巡回するにあたって、まずサーバの最上位階層のrobots.txtにアクセスし、サーバ内のアクセスの許可を確認してから、アクセスを行うように推奨されている。
ホームページスペース
プロバイダや無料サービスなどのホームページスペースでは、このrobots.txtは使えない。ドメイントップのindex.htmlなどと同じ階層におかねばならない。
robots.txtの記述
すべてを巡回
robots.txtには、すべてのディレクトリを巡回し、ファイルをGETされたい場合は、
User-agent: *のように記述する。
Disallow:
Googleだけ拒否
Googleのロボット(Googlebot)だけ、すべてのディレクトリ巡回やファイルGETを拒否する場合は、
User-agent: Googlebot と記述する。
Disallow: /*
Yahoo!だけ拒否
Yahoo!のロボット(Yahoo! Slurp)だけ、すべてのディレクトリ巡回やファイルGETを拒否する場合は、
User-agent: Slurp と記述する。
Disallow: /*
すべてのロボットを拒否
すべてのロボットを拒否する場合は、
User-agent: * と記述する。
Disallow: /*
まぁ、よほどでないと、こんなことはしないだろうが…
ロボットの巡回を制限する
次の訪問までの時間を指定し、例えば20秒経たないとアクセスできないようにするには、
MSNBotの場合
User-Agent: msnbot
Crawl-Delay: 20
Yahoo! Slurpの場合
User-agent: Slurp
Crawl-delay: 20
Googleはできるという話は聞いたことがない。
巡回拒否以外の使い道
根拠はないが、robots.txtはおいていた方がよさそうだ。ロボットは、まずrobots.txtを探している、毎回。
巡回促進?
robots.txtの本来の使い道は、ロボットアクセス拒否なのだが、キャッシュされたくない、存在しないディレクトリやファイルなどを指定することによって、無駄な巡回を控えさせることになりそうだ。
ロボットは、最初はリンクをたどって巡回してくるが、その後は作成済みのURI情報に基づいて訪問してくる。ファイルを移動したり、削除した場合は、robots.txtでアクセス拒否した方がいいだろう。
これが実際に、巡回して欲しいディレクトリやファイルのGET増になるかは分からないが…


