2006-05-18
Big Daddy症候群 - 新型データセンター導入の経緯と背景
短期集中エントリー:GoogleのBig Daddy問題を研究する
検索する側・される側を大きく悩ませている現在のGoogleの不具合?について、何回かまとめてエントリーしていく。
もう少し辛抱していただき、今回は、不具合を引き起こしている「Big Daddy」データセンターが導入されるにいたった経緯と背景について書いてみる。
データセンター切り替えの意味
まず予備知識として、いくつか用語を解説しておこう。
Big Daddyとは、Googleの新しいデータセンターである。データセンターとは、一方で、世界中のサイトを巡回してWebページをインデックス化して蓄積するデータベースであり、他方で、ユーザーが入力するキーワードを受け取って関連性に基づいて検索結果を出している検索エンジンの本体である。
この関連性は、アルゴリズムといわれる順位付けルールに従って上から並べられる。
整理すると、インデックスはいわゆるデータであり、アルゴリズムはデータの序列の仕組みである。
よって、Big Daddyへの切り替えとは、一方でWebページを集めていたデータベースが違うものになったということであり、他方でデータの並べ替えのルールを変更したということである。
そして、一方で旧データセンターにはあった自分のサイトのページがBig Daddyで消えたり、他方で順位変動が起こったり、おかしな検索結果が出てくるものと想定される。
Big Daddyの導入経過
一連の「Big Daddy症候群」のエントリーに登場するMatt Cuttsとは、Googleのエンジニアであり、データセンターの総監督、そしてSEOとスパムに関して自身のブログで盛んにアナウンスと警告をしている人物である。
Matt Cuttsのブログの上記エントリーを中心に、Big Daddyに関連した事件は下記の通り。
- 2005年12月
- クロールとインデックス担当チームが、Big Daddyをデビューさせた
- 2006年1月はじめ
- (1)URL正規化、(2)検索子inurl:、(3)302リダイレクト などの問題を取り上げ、その解決に向けたBig Daddyデータセンターを告知し、フィードバックを受け付けるようにした
(1)url canonicalization、(2)interpreting inurl、(3)discussing 302 redirects
Feedback on Bigdaddy data center - 2006年2月
- 一部の既存データセンターを、Big Daddy仕様に更新
- 2006年2月4日
- クローキングによりBMWのサイトがGoogleからインデックス削除される
Ramping up on international webspam - 2006年3月
- あるサイトで、インデックス漏れがあると多数の苦情
- 2006年3月おわり
- 某有名サイトをはじめ、いくつかのサイトが「特定のSEO」によって、インデックス削除される
- 2006年4月はじめ
- 全データセンター、Big Daddyに切り替え完了
- 2006年5月
- 検索不具合、インデックス不具合が多発
URL正規化
url canonicalization(カノニカライゼイション)
- http://www.hyperposition.com/
- http://www.hyperposition.com
- http://hyperposition.com/
- http://hyperposition.com
- http://www.hyperposition.com/index.html
- http://hyperposition.com/index.html
当SEO塾サイトを例に取ると、上記の6通りのURIに対しどれも同じページを表示するが、これはサーバやブラウザによってURLが正規化されたりして、どれも同一のものと認識されているからである。
ところが、Googleは時として違うものとして認識し、バックリンク情報などが分散して、順位付けに不利益が生じている。
またもっと大きな問題は二つあり、上記の同一ページ表示がリダイレクトを絡めて実現している場合は、リダイレクト嫌いのGoogleが少しおかしい処理をするケースが出てくる。
もう一つは、
詳細は省くが、URI乗っ取りというスパムの温床ともなっている。
検索子inurl:
例えば、inurl:hyperposition.comは、hyperposition.comをURIに含むページの抽出のコマンドである。
そして、inurl:hyperposition.com -site:hyperposition.comというコマンドならば、hyperposition.comサイト以外で、hyperposition.comのURIを含むページを抽出する。
というか、普通に考えた場合、「hyperposition.comサイト以外で、hyperposition.comのURIを含むページ」は、存在しないはずである。
上記の検索結果のように、hyperposition.comはハイジャックされているのである。
302リダイレクト
とにかく、Googleはリダイレクトに敏感すぎる。
この項については、下記エントリーを参照願いたい。
これは、古くからWebマスターを悩ませている問題で、スパム対策としてのリダイレクト処理が、かえってスパムの温床になっている例である。
フィードバック
Matt Cuttsは、盛んにフィードバックを求めている。しかも、Webマスターとしての苦情よりも、スパムサイトの報告の方が熱を帯びている。
さて、レポート提出のページを、Googleは用意している。
(1)は日本語ページ、(2)は英語ページであるが、実は最近の日本語Googleのヘルプページでは、(1)へのリンクが見当たらない。(2)へのリンクだけである。
クローキング
BMWのサイトがインデックス削除されたのは、クローキングをやっていたからである。
クローキングについては、簡単ではあるが、クローキング(ステルス、ファントム) :邪道のSEOスパムをご覧いただきたい。
クローキングは、Googleが昔からもっとも嫌うスパムの手法である。
インデックス削除、いわゆる「グーグル八部」
さて、某有名サイトのインデックス削除については、CNET Japan Blog - 渡辺隆広のサーチエンジン情報館:サイバーエージェント運営のウェブサイト、Googleから削除されるに直接あたっていただきたい。
このほかにも、同じような「特定のSEO」を採っていた数多くのサイトが「グーグル八部」された。
もっとも、この時のインデックス削除では、「特定のSEO」の部分を取り除いたほとんどのサイトが復権しているようである。
ただし、未だに復活していないサイトもある。
さらには、これ以前にインデックス削除されたまま、復権を認められていないサイトもある。
この項については、特にグーグル八部や、それを招いてしまった「特定のSEO」など、別エントリーで詳しく解説していきたい。
Big Daddyを導入した背景とは
結局は、Googleはスパムとの戦いに終始し、従来のアルゴリズムがシステム疲労を起こして、最新のスパムに対応しきれなくなって、新型のデータセンターを導入したということに尽きそうである。
つまり、Big Daddyの導入背景は、アンチスパムということである。
しかも、クローキングや特定のSEOに対するグーグル八部は、フィードバックを声高に叫んでいることとも重ね合わせると、ユーザーの密告もしくはGoogleスタッフの目視、そして手動による削除の可能性が高い。
この根拠についても、別エントリーにゆだねることにする。
2006-05-18 01:38 AM | コメント (0) | トラックバック (1) [ 管理人編集 ]
