robots.txt

robots.txtで検索エンジンのロボット(クローラ、スパイダー)対策

Google対Yahoo!対MSN

[ 管理人編集 ]

robots.txt

robots.txtは、ロボットのためのファイル

アクセスログの確認

アクセスログを見る環境を持っている人は、分かっているはずだが、ロボットは、最初にサイトトップのrobots.txtにアクセスする。

アクセスの許認可

ロボットは、Webサイトを巡回するにあたって、まずサーバの最上位階層のrobots.txtにアクセスし、サーバ内のアクセスの許可を確認してから、アクセスを行うように推奨されている。

ホームページスペース

プロバイダや無料サービスなどのホームページスペースでは、このrobots.txtは使えない。ドメイントップのindex.htmlなどと同じ階層におかねばならない。

robots.txtの記述

すべてを巡回

robots.txtには、すべてのディレクトリを巡回し、ファイルをGETされたい場合は、
User-agent: *
Disallow:
のように記述する。

Googleだけ拒否

Googleのロボット(Googlebot)だけ、すべてのディレクトリ巡回やファイルGETを拒否する場合は、
User-agent: Googlebot
Disallow: /*
と記述する。

Yahoo!だけ拒否

Yahoo!のロボット(Yahoo! Slurp)だけ、すべてのディレクトリ巡回やファイルGETを拒否する場合は、
User-agent: Slurp
Disallow: /*
と記述する。

すべてのロボットを拒否

すべてのロボットを拒否する場合は、
User-agent: *
Disallow: /*
と記述する。

まぁ、よほどでないと、こんなことはしないだろうが…

ロボットの巡回を制限する

次の訪問までの時間を指定し、例えば20秒経たないとアクセスできないようにするには、

MSNBotの場合

User-Agent: msnbot
Crawl-Delay: 20

Yahoo! Slurpの場合

User-agent: Slurp
Crawl-delay: 20

Googleはできるという話は聞いたことがない。

巡回拒否以外の使い道

根拠はないが、robots.txtはおいていた方がよさそうだ。ロボットは、まずrobots.txtを探している、毎回。

巡回促進?

robots.txtの本来の使い道は、ロボットアクセス拒否なのだが、キャッシュされたくない、存在しないディレクトリやファイルなどを指定することによって、無駄な巡回を控えさせることになりそうだ。

ロボットは、最初はリンクをたどって巡回してくるが、その後は作成済みのURI情報に基づいて訪問してくる。ファイルを移動したり、削除した場合は、robots.txtでアクセス拒否した方がいいだろう。

これが実際に、巡回して欲しいディレクトリやファイルのGET増になるかは分からないが…

SEOコンサルタントならSEO塾の講座とセミナー

SEO塾は、パターン化システム化されたSEOフォーマットを開発、さらにYahoo!対策バージョンが大好評!!

【塾生の反響】
ほとんどのキーワードが、ヤフーで順位アップしています。びっくりするような効果ですね!
2サイトが圏外から脱出、いっきに上位ページにランクインしました。
空前絶後の好結果、SEO塾万歳です。

今すぐ『SEOコンサルタントはWeb/メールのSEO塾』を受講しましょう。

独自の検証と実験を続けるSEO塾が、検索エンジンのアルゴリズムとペナルティの謎に接近。
順位変動に迷わない、回復リカバリーを成功させたい。お悩みの方は、業界オンリーワンのSEOセミナーをご覧ください。



© 2009 ヤフーの変動リカバリーとグーグルの順位アップなら、SEO塾/(株)アルゴリズムの検索エンジン対策

株式会社アルゴリズム運営のSEO塾