Big Daddy症候群 - 新型データセンター導入の経緯と背景

世界のロボット型検索エンジンNo.1、Google(グーグル)の書

Google(グーグル)とYahoo!(ヤフー)とMSNサーチ(マイクロソフト)のSEO 対策

『SEOブログ』が、ヤフーを視る! グーグルを識る! 検索エンジンを斬る!!

2006-07-07、検索エンジン三国志に代わるSEO情報ブログとして「SEOブログ」を立ち上げました。
SEOブログのトピックは、三国志と同様にGoogle・Yahoo!・MSN(Liveサーチ)の3大検索エンジンを中心としたSEOに関するものです。

検索エンジンのコアでマニアックなリアルタイム情報は、『検索エンジン最新情報 SEOブログ from SEO塾』をご利用ください。

2006-05-18

Big Daddy症候群 - 新型データセンター導入の経緯と背景

短期集中エントリー:GoogleのBig Daddy問題を研究する

検索する側・される側を大きく悩ませている現在のGoogleの不具合?について、何回かまとめてエントリーしていく。

もう少し辛抱していただき、今回は、不具合を引き起こしている「Big Daddy」データセンターが導入されるにいたった経緯と背景について書いてみる。

データセンター切り替えの意味

まず予備知識として、いくつか用語を解説しておこう。

Big Daddyとは、Googleの新しいデータセンターである。データセンターとは、一方で、世界中のサイトを巡回してWebページをインデックス化して蓄積するデータベースであり、他方で、ユーザーが入力するキーワードを受け取って関連性に基づいて検索結果を出している検索エンジンの本体である。
この関連性は、アルゴリズムといわれる順位付けルールに従って上から並べられる。

整理すると、インデックスはいわゆるデータであり、アルゴリズムはデータの序列の仕組みである。

よって、Big Daddyへの切り替えとは、一方でWebページを集めていたデータベースが違うものになったということであり、他方でデータの並べ替えのルールを変更したということである。
そして、一方で旧データセンターにはあった自分のサイトのページがBig Daddyで消えたり、他方で順位変動が起こったり、おかしな検索結果が出てくるものと想定される。

Big Daddyの導入経過

一連の「Big Daddy症候群」のエントリーに登場するMatt Cuttsとは、Googleのエンジニアであり、データセンターの総監督、そしてSEOとスパムに関して自身のブログで盛んにアナウンスと警告をしている人物である。

Matt Cuttsのブログの上記エントリーを中心に、Big Daddyに関連した事件は下記の通り。

2005年12月
クロールとインデックス担当チームが、Big Daddyをデビューさせた
2006年1月はじめ
(1)URL正規化、(2)検索子inurl:、(3)302リダイレクト などの問題を取り上げ、その解決に向けたBig Daddyデータセンターを告知し、フィードバックを受け付けるようにした
(1)url canonicalization、(2)interpreting inurl、(3)discussing 302 redirects
Feedback on Bigdaddy data center
2006年2月
一部の既存データセンターを、Big Daddy仕様に更新
2006年2月4日
クローキングによりBMWのサイトがGoogleからインデックス削除される
Ramping up on international webspam
2006年3月
あるサイトで、インデックス漏れがあると多数の苦情
2006年3月おわり
某有名サイトをはじめ、いくつかのサイトが「特定のSEO」によって、インデックス削除される
2006年4月はじめ
全データセンター、Big Daddyに切り替え完了
2006年5月
検索不具合、インデックス不具合が多発
URL正規化

url canonicalization(カノニカライゼイション)

  1. http://www.hyperposition.com/
  2. http://www.hyperposition.com
  3. http://hyperposition.com/
  4. http://hyperposition.com
  5. http://www.hyperposition.com/index.html
  6. http://hyperposition.com/index.html

当SEO塾サイトを例に取ると、上記の6通りのURIに対しどれも同じページを表示するが、これはサーバやブラウザによってURLが正規化されたりして、どれも同一のものと認識されているからである。

ところが、Googleは時として違うものとして認識し、バックリンク情報などが分散して、順位付けに不利益が生じている。

またもっと大きな問題は二つあり、上記の同一ページ表示がリダイレクトを絡めて実現している場合は、リダイレクト嫌いのGoogleが少しおかしい処理をするケースが出てくる。
もう一つは、 詳細は省くが、URI乗っ取りというスパムの温床ともなっている。

検索子inurl:

例えば、inurl:hyperposition.comは、hyperposition.comをURIに含むページの抽出のコマンドである。

そして、inurl:hyperposition.com -site:hyperposition.comというコマンドならば、hyperposition.comサイト以外で、hyperposition.comのURIを含むページを抽出する。

というか、普通に考えた場合、「hyperposition.comサイト以外で、hyperposition.comのURIを含むページ」は、存在しないはずである。

上記の検索結果のように、hyperposition.comはハイジャックされているのである。

302リダイレクト

とにかく、Googleはリダイレクトに敏感すぎる。

この項については、下記エントリーを参照願いたい。

これは、古くからWebマスターを悩ませている問題で、スパム対策としてのリダイレクト処理が、かえってスパムの温床になっている例である。

フィードバック

Matt Cuttsは、盛んにフィードバックを求めている。しかも、Webマスターとしての苦情よりも、スパムサイトの報告の方が熱を帯びている。

さて、レポート提出のページを、Googleは用意している。

  1. 不正行為の報告:Web マスターのための Google 情報
  2. Report a Spam Result

(1)は日本語ページ、(2)は英語ページであるが、実は最近の日本語Googleのヘルプページでは、(1)へのリンクが見当たらない。(2)へのリンクだけである。

クローキング

BMWのサイトがインデックス削除されたのは、クローキングをやっていたからである。

クローキングについては、簡単ではあるが、クローキング(ステルス、ファントム) :邪道のSEOスパムをご覧いただきたい。

クローキングは、Googleが昔からもっとも嫌うスパムの手法である。

インデックス削除、いわゆる「グーグル八部」

さて、某有名サイトのインデックス削除については、CNET Japan Blog - 渡辺隆広のサーチエンジン情報館:サイバーエージェント運営のウェブサイト、Googleから削除されるに直接あたっていただきたい。

このほかにも、同じような「特定のSEO」を採っていた数多くのサイトが「グーグル八部」された。

もっとも、この時のインデックス削除では、「特定のSEO」の部分を取り除いたほとんどのサイトが復権しているようである。

ただし、未だに復活していないサイトもある。
さらには、これ以前にインデックス削除されたまま、復権を認められていないサイトもある。

この項については、特にグーグル八部や、それを招いてしまった「特定のSEO」など、別エントリーで詳しく解説していきたい。

Big Daddyを導入した背景とは

結局は、Googleはスパムとの戦いに終始し、従来のアルゴリズムがシステム疲労を起こして、最新のスパムに対応しきれなくなって、新型のデータセンターを導入したということに尽きそうである。

つまり、Big Daddyの導入背景は、アンチスパムということである。

しかも、クローキングや特定のSEOに対するグーグル八部は、フィードバックを声高に叫んでいることとも重ね合わせると、ユーザーの密告もしくはGoogleスタッフの目視、そして手動による削除の可能性が高い。

この根拠についても、別エントリーにゆだねることにする。

2006-05-18 01:38 AM | コメント (0) | トラックバック (1) [ 管理人編集 ]

SEOセミナーでグーグル・ヤフー対策の講座を

SEO塾は、パターン化システム化されたSEOフォーマットを開発、さらにYahoo!対策バージョンが効果バツグン!!

【塾生の反響】
ほとんどのキーワードが、ヤフーで順位アップしています。びっくりするような効果ですね!
2サイトが圏外から脱出、いっきに上位ページにランクインしました。
空前絶後の好結果、SEO塾万歳です。

今すぐ『Web教則本とメールのSEOセミナー』をお申し込みください。


コメント

"Big Daddy症候群 - 新型データセンター導入の経緯と背景"へのコメントはまだありません。

コメントしてください

サイン・インを確認しました、 さん。コメントしてください。 (サイン・アウト)

(いままで、ここでコメントしたとがないときは、コメントを表示する前にこのウェブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)


情報を登録する?




トラックバック

» インデックス更新情報入手先(Google) from カウスの水先案内+ プラス
■Googleインデックス更新情報 ・Matt Cutts: Gadgets, Google, and SEO(英語^^;) 2007/1/9 200... [続きを読む]
■トラックバック時刻: 2007-01-24 11:08 PM

このエントリーのトラックバックURL:

"Big Daddy症候群 - 新型データセンター導入の経緯と背景"の紹介記事が書かれていない場合は、スパムとみなされトラックバックできません。


SEO塾でSEOの対策を

SEO塾でGoogle(グーグル)とYahoo!(ヤフー)とLive Search(MSN)の順位アップと変動リカバリーを! ©2004-2008