robots.txt

robots.txtで検索エンジンのロボット(クローラ、スパイダー)対策

Google対Yahoo!対MSN

[ 管理人編集 ]

robots.txt

robots.txtは、ロボットのためのファイル

アクセスログの確認

アクセスログを見る環境を持っている人は、分かっているはずだが、ロボットは、最初にサイトトップのrobots.txtにアクセスする。

アクセスの許認可

ロボットは、Webサイトを巡回するにあたって、まずサーバの最上位階層のrobots.txtにアクセスし、サーバ内のアクセスの許可を確認してから、アクセスを行うように推奨されている。

ホームページスペース

プロバイダや無料サービスなどのホームページスペースでは、このrobots.txtは使えない。ドメイントップのindex.htmlなどと同じ階層におかねばならない。

robots.txtの記述

すべてを巡回

robots.txtには、すべてのディレクトリを巡回し、ファイルをGETされたい場合は、
User-agent: *
Disallow:
のように記述する。

Googleだけ拒否

Googleのロボット(Googlebot)だけ、すべてのディレクトリ巡回やファイルGETを拒否する場合は、
User-agent: Googlebot
Disallow: /*
と記述する。

Yahoo!だけ拒否

Yahoo!のロボット(Yahoo! Slurp)だけ、すべてのディレクトリ巡回やファイルGETを拒否する場合は、
User-agent: Slurp
Disallow: /*
と記述する。

すべてのロボットを拒否

すべてのロボットを拒否する場合は、
User-agent: *
Disallow: /*
と記述する。

まぁ、よほどでないと、こんなことはしないだろうが…

ロボットの巡回を制限する

次の訪問までの時間を指定し、例えば20秒経たないとアクセスできないようにするには、

MSNBotの場合

User-Agent: msnbot
Crawl-Delay: 20

Yahoo! Slurpの場合

User-agent: Slurp
Crawl-delay: 20

Googleはできるという話は聞いたことがない。

巡回拒否以外の使い道

根拠はないが、robots.txtはおいていた方がよさそうだ。ロボットは、まずrobots.txtを探している、毎回。

巡回促進?

robots.txtの本来の使い道は、ロボットアクセス拒否なのだが、キャッシュされたくない、存在しないディレクトリやファイルなどを指定することによって、無駄な巡回を控えさせることになりそうだ。

ロボットは、最初はリンクをたどって巡回してくるが、その後は作成済みのURI情報に基づいて訪問してくる。ファイルを移動したり、削除した場合は、robots.txtでアクセス拒否した方がいいだろう。

これが実際に、巡回して欲しいディレクトリやファイルのGET増になるかは分からないが…

SEO塾のセミナーと講座で、セルフSEOやコンサルタントを

SEO塾は、最高最強最新のSEOを開発し、Google・Yahoo!・Bing対応のモジュール化に成功!

上位表示の達成という実績。
だから最高なのです。
検証を重ねて、ブラッシュアップし続けました。
だから最強なのです。
アルゴリズム変更やペナルティ導入にも、ほぼリアルタイムで対応。
だから最新なのです。

今すぐ『テキストでできるセルフSEOと、リーズナブルなコンサルティングの、SEO塾』へお申し込みください。



© 2009 ヤフーの変動リカバリーとグーグルの順位アップなら、SEO塾/(株)アルゴリズムの検索エンジン対策

株式会社アルゴリズム運営のSEO塾