robots.txt

robots.txtで検索エンジンのロボット(クローラ、スパイダー)対策

Google対Yahoo!対MSN

[ 管理人編集 ]

robots.txt

robots.txtは、ロボットのためのファイル

アクセスログの確認

アクセスログを見る環境を持っている人は、分かっているはずだが、ロボットは、最初にサイトトップのrobots.txtにアクセスする。

アクセスの許認可

ロボットは、Webサイトを巡回するにあたって、まずサーバの最上位階層のrobots.txtにアクセスし、サーバ内のアクセスの許可を確認してから、アクセスを行うように推奨されている。

ホームページスペース

プロバイダや無料サービスなどのホームページスペースでは、このrobots.txtは使えない。ドメイントップのindex.htmlなどと同じ階層におかねばならない。

robots.txtの記述

すべてを巡回

robots.txtには、すべてのディレクトリを巡回し、ファイルをGETされたい場合は、
User-agent: *
Disallow:
のように記述する。

Googleだけ拒否

Googleのロボット(Googlebot)だけ、すべてのディレクトリ巡回やファイルGETを拒否する場合は、
User-agent: Googlebot
Disallow: /*
と記述する。

Yahoo!だけ拒否

Yahoo!のロボット(Yahoo! Slurp)だけ、すべてのディレクトリ巡回やファイルGETを拒否する場合は、
User-agent: Slurp
Disallow: /*
と記述する。

すべてのロボットを拒否

すべてのロボットを拒否する場合は、
User-agent: *
Disallow: /*
と記述する。

まぁ、よほどでないと、こんなことはしないだろうが…

ロボットの巡回を制限する

次の訪問までの時間を指定し、例えば20秒経たないとアクセスできないようにするには、

MSNBotの場合

User-Agent: msnbot
Crawl-Delay: 20

Yahoo! Slurpの場合

User-agent: Slurp
Crawl-delay: 20

Googleはできるという話は聞いたことがない。

巡回拒否以外の使い道

根拠はないが、robots.txtはおいていた方がよさそうだ。ロボットは、まずrobots.txtを探している、毎回。

巡回促進?

robots.txtの本来の使い道は、ロボットアクセス拒否なのだが、キャッシュされたくない、存在しないディレクトリやファイルなどを指定することによって、無駄な巡回を控えさせることになりそうだ。

ロボットは、最初はリンクをたどって巡回してくるが、その後は作成済みのURI情報に基づいて訪問してくる。ファイルを移動したり、削除した場合は、robots.txtでアクセス拒否した方がいいだろう。

これが実際に、巡回して欲しいディレクトリやファイルのGET増になるかは分からないが…

マニュアルとセミナーで、コンサルティングとセルフSEO。株式会社アルゴリズム運営のSEO塾

Yahoo!で突然、順位がダウンした! トップページが消えた!!
Googleで、何をやっても順位が上がらない! ディレクトリ丸ごとページが検索されなくなった!!

SEO業者にまかせていたのに、ペナルティを受けてしまった!
SEO業者のリンク集一括登録や、有料リンクも効果なし!!

最高最強最新のSEO、SEO塾のGoogle上位表示は、失敗しない「SEO対策」を提供します。



© 2009 ヤフーの変動リカバリーとグーグルの順位アップなら、SEO塾/(株)アルゴリズムの検索エンジン対策

株式会社アルゴリズム運営のSEO塾