2005-04-18
YSTのロボット巡回とインデックス追加を検証
検索エンジンとしてのYST
今更ながらYSTは、Yahoo! Search Technologyの略。Yahoo! Inc.がGoogleに対抗するために、InktomiとAlltheWeb・altavistaを合体させた独自検索エンジンのことである。
さて、SEO塾は独自に検索エンジンで上位表示されるための4つの条件を設定してる。
検索エンジン4条件
- ロボット巡回
- インデックス追加
- アルゴリズム適合
- フィルタ回避
つまり、ロボットが巡回して来なければ一切はじまらない、インデックスに追加されなければ(あるいは削除されたなら)どうしようもない。
アルゴリズム適合とは、順位付けのルールに従って上位表示されることである。
キーワード検索してみて、下がった・消えたとなれば一大事であるが、まずロボット巡回やインデックス追加を調査しておく必要がある。
YSTの検証
ロボットからYSTを検証
Yahoo!からと思われるロボットの一覧である。
実は、Yahoo!のロボットはYahoo! Slurpだけではない。また、実に分かりにくい巡回パターンになっている。しかもGooglebotとは違って、304(未更新)を返して帰るケースが非常に多い。
想像されるのは、インデックスのため、ハブページからのリンク先確認のため、あるいは単なる存在確認のために巡回しているかもしれない。
fj系
| IP | ホスト |
|---|---|
| 66.196.91.# | fj1###.inktomisearch.com |
| 66.196.101.# | fj5###.inktomisearch.com |
| 202.165.98.# | fj9###.inktomisearch.com |
ユーザーエージェントは、Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
lj系
| IP | ホスト | ||
|---|---|---|---|
| 66.196.90.# | lj1###.inktomisearch.com | ~ | lj123#.inktomisearch.com |
| 66.196.91.# | lj124#.inktomisearch.com | ~ | lj13##.inktomisearch.com |
| 68.142.249.# | lj20##.inktomisearch.com | ~ | lj21##.inktomisearch.com |
| 68.142.250.# | lj22##.inktomisearch.com | ~ | lj23##.inktomisearch.com |
| 68.142.251.# | lj24##.inktomisearch.com | ~ | lj25##.inktomisearch.com |
ユーザーエージェントは、Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
IPは、fj系とlj系で66.196.91.が被っている。
当管理サイトだけのことかもしれないが、lj系の巡回量は莫大である。さらにGETしてはいても、インデックスにつながっていないケースも多々見られるようだ。
yst.corp系
| IP | ホスト |
|---|---|
| 66.228.164.42 | d2025.yst.corp.yahoo.com |
| 66.228.164.90 | cdev2001.yst.corp.yahoo.com |
| 66.228.164.115 | g1006.yst.corp.yahoo.com |
| 66.228.164.148 | i18ndev4.yst.corp.yahoo.com |
| 66.228.164.151 | i18ndev7.yst.corp.yahoo.com |
| 66.228.164.155 | i18ndev11.yst.corp.yahoo.com |
| 66.228.164.140 | rtools2.yst.corp.yahoo.com |
| 66.228.164.141 | rtools3.yst.corp.yahoo.com |
| 66.228.164.142 | rtools4.yst.corp.yahoo.com |
| 66.228.164.193 | rdev5.yst.corp.yahoo.com |
| 66.228.164.200 | rdev24.yst.corp.yahoo.com |
| 66.228.164.201 | rdev25.yst.corp.yahoo.com |
| 66.228.164.203 | rdev27.yst.corp.yahoo.com |
- ユーザーエージェントは、下記のとおり
- Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
- Mozilla/5.0 (compatible; Yahoo! DE Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
- Mozilla/5.0 (compatible; Yahoo! Slurp/si-emb; http://help.yahoo.com/help/us/ysearch/slurp)
- Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)
- Mozilla/4.5 [en] (Win98; I)
これらのロボットは、実に不思議な巡回パターンになっている。
- 基本的には、Yahoo! JAPANカテゴリ登録サイトのトップを巡回している。しかも、あくまでも基本的にということだ。
- rtools3.yst.corp.yahoo.comは相当奇妙な動きを示している。 ユーザーエージェントはMozilla/4.5 [en] (Win98; I)、かつ単独のリンク集ページのみにアクセスしている。ディレクトリもrobots.txtも巡回していない。
- g1006.yst.corp.yahoo.comは、サイトのトップとrobots.txtのみ。
- rtools2.yst.corp.yahoo.comとrtools4.yst.corp.yahoo.comは、特定のディレクトリとrobots.txtのみ、エージェントもMozilla/4.0 (compatible; MSIE 5.0; Windows NT)。
- rdev27.yst.corp.yahoo.com、エージェントは普通のYahoo! Slurpだが、robots.txtと特定のページに執拗にアクセスして、時折304(未更新)を返している。ストーカーのごとく不気味だ。
YSTのロボット巡回の所感
実際、Googleのロボット巡回をベースに検証をはじめてしまうと戸惑うことばかりである。
これだけ、多くの種類があって、しかも巡回パターンも多岐多様ということは、YSTのアルゴリズムもそれだけ複雑ということである。
インデックスからYSTを検証
HyperPositionのサイトは、2004年12月初旬に、メインをhyperposition.jpからhyperposition.comへ移転している。
サイト・ページ移転を検索エンジンに周知徹底する方法は、htaccessによる301リダイレクトである。
その時のYSTの当サイトインデックス状況は、下記のとおりであった。
| SEO塾 | ブログ塾 | ||
|---|---|---|---|
| com | jp | com | jp |
| 317 | 187 | 19 | 28 |
この時のYSTの処置は、「Yahoo!(YST)は、hyperposition.jpで検索してもリダイレクトを認識しているページはhyperposition.comのインデックスを出している。」(hyperposition.comのリダイレクトとインデックス)
現在は、下記のとおりである。
| SEO塾 | ブログ塾 | ||
|---|---|---|---|
| com | jp | com | jp |
| 707 | 2 | 44 | 0 |
YSTのインデックス追加の所感
Update Tim直前のデータがないのが汚点だが、Yahoo! Inc.筋からの発表でも、アルゴリズム変更ではなく、インデックス入れ替えと謳っていることから、検索エンジンの生命であるリンク構造のデータベースをまるっと交換したのかもしれない。
そのデータベースでは、存在しないページをデータから消去するとともに、ハブ・アンド・オーソリティのアルゴリズムの精度を高めるために、全ページ間のリンク構造のインデックスを再構築したのだろう。
なお、今回のYST更新でインデックスの増減が起こっているが、特定のリンク構造になっていないページが消去されているものと想像される。
つまり、
YSTが認めるようなリンク構造の条件を満たしていない場合、これからもインデックスされることもなければ、今インデックスされていても削除される可能性がある。
これは、Googleでも同じで、被リンク数が少ないと、ロボットが巡回して来ていても、検索されない、インデックスに追加されないという現象が起こっている。
YSTでも、インデックスは溜め込むだけ溜め込んだので、アルゴリズムに相応しいインデックスへの入れ替えという大鉈を振るったのだろう。
Update Timとリンク構造の条件
不利になるかもしれないブログ
さて、YSTが要求するリンク構造の条件を一刻も早く見抜かなければならないが、通常のブログのテンプレートは危険かもしれない。
トップページ自体に、常に最新のエントリーを表示するシステムはユーザーに親切な仕組みなのだが、問題はエントリーするたびにサイドバーなどのナビゲーションも書き換えられることである。
古いエントリーは、トップページからのリンクを失う。
カテゴリーアーカイブや日付アーカイブなどからのリンク、個別エントリーページ同士のリンク、これらがYSTのリンク構造の条件を満たすかどうか…
そもそも、ブログ自体が一つのサイトとしてトピックの統一性があるのか。
Yahoo! JAPANは、ページ検索の動向など何の関心もないかもしれないが、Yahoo! Inc.の方は、Googleに追い付くどころか、MSNに追い上げられている。アルゴリズム検索は、生き残りをかけて死に物狂いで開発しなければならないのである。
リンク構造の条件とは
メルマガにも書いておいたが、下記のことは想定してもいいだろう。
- リンク元のページのトピックは何か
- リンクが書いてある箇所の前後の文章(そのページのトピックとの関連性、リンク先のトピックとの関連性)
- リンクを受けているページのコンテンツ(リンク元のトピックとの関連性)
- リンク元が複数ある場合のそれぞれの素性(同一ドメインの重複具合)
- 自サイトの場合は、トップからディレクトリ(階層)や各末端ページとリンクの順路(どれだけ必然な流れになっているか)
2005-04-18 01:50 AM | コメント (0) | トラックバック (1) [ 管理人編集 ]


