[ 管理人編集 ]
検索エンジンのロボット(クローラ、スパイダー)
検索エンジンのロボットの巡回を確認する
ロボットの巡回は、サーバの生ログなどを見る。
CGIやJavaScriptで動くアクセス解析ツールには、ロボットは痕跡を残さないので、SSI方式のものを用意する。
ロボットの意味
検索エンジンは、カテゴリー型とロボット型に区別され、カテゴリー型の代表は「Yahoo!カテゴリとの一致」に表示されるような「Yahoo!登録サイト」などであり、サイトのオーナーなどが登録を申請する。
これに対して、Googleなどのロボット型検索エンジンでは、申請するのではなく、ロボットが巡回し登録するようになっている。
よって、ロボットが巡回してこない限り、ロボット型検索エンジンに登録もされないし、ページが検索されることもない。
ロボットは、クローラ(Crawler)あるいはスパイダー(Spider)とも言われている。
Googleのロボット
Googleのロボットは、Googlebot(グーグルボット)と名付けられている。
コンテンツは、Googleのロボット - Googlebotへ移転。
Yahoo!のロボット
Yahoo!のロボットは、一般的にはYahoo! Slurp(ヤフースラープ)と言われる。が、それ以外もある。
コンテンツは、Yahoo!(YST)のロボット - Yahoo! Slurpほかへ移転。
新MSNのロボット
新MSNとは、2005-02-01から英語圏を中心に、2005-06-25から日本で正式稼動した、Microsoftの独自検索エンジン。この新MSN のロボットはMSNBotという。
ユーザーエージェントは、 「msnbot/0.11」、「msnbot/0.3」、「msnbot/1.0」。
コンテンツは、MSNサーチのロボット - MSNBotへ移転。
参照
他の検索エンジンのロボットは
WEB雑記2 USER-AGENT(サイトを訪れるユーザーエージェントについて)
Robot Agent Strings (ASCII Tab-delimited).
HTTPステータスコード
- 66.196.101.93 - - [27/Jun/2004:01:39:11 +0900] "GET /se3blog HTTP/1.0" 301 317 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
- 66.196.101.93 - - [27/Jun/2004:01:39:30 +0900] "GET /se3blog/ HTTP/1.0" 200 44460 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
- 上記ログの「301」や「200」の箇所は、HTTPステータスコードという。「200」「301」「302」「304」「401」「404」などと記録される。
HTTPステータス・コードやHTTPステータスコードを参照のこと。
| ステータス・コード | 意味 | |
|---|---|---|
| 200 | OK | ロボットのファイル取得 |
| 301 | Moved Permanently | 恒久的に別のアドレスへ移動 |
| 302 | Moved Temporarily | 一時的に別のアドレスに移動 |
| 304 | Not Modified | 未更新 |
| 401 | Unauthorized | 認証が必要 |
| 404 | Not Found | ページなし |



