2005-03-20
悩ましいGoogle更新 - Update Allegra途中経過
未だにGoogleの更新が終わらない。
さて今回は、この更新(あえてUpdate Allegraと呼ぶ)に関して、いつもとは変わったアプローチを試してみよう。
Google検索とサーバ
Google 会社情報: テクノロジーには、キーワード検索に対して、Google側の処理の仕組みが解説してある。
- ウェブ サーバー
- ユーザーの検索したいキーワードを受け取る
- インデックス サーバー
- 世界中のWebページをインデックス付けして格納
- キーワードごとの順位付けを生成
- ドキュメント サーバー
- Webページのスナップショットであるキャッシュを格納
- 検索結果画面に表示されるタイトルとスニペットを生成
- ウェブ サーバー
- 順位付けされた検索結果画面を表示
インデックスとキャッシュの違い
キャッシュはドキュメント サーバーにあって、検索結果画面に表示されるタイトルやスニペット(要約文)とセットになっている。
キャッシュが古いものに後戻りするケースが多いし、先日は文字化け事件も起こったが、あくまでもインデックスとは別物、つまり順位付けデータとは一線を画していると考えるべきである。
ドキュメント サーバーがトラブっても、順位には影響がなかったことから、判断されると思う。
インデックス サーバーこそがGoogle Danceの源
世界中のユーザーがアクセスするわけだから、負荷を分散しなければならない。
専門用語では、DNSラウンドロビン、ロードバランサなどという仕組みで、複数のデータセンターのどれかにランダムにアクセスするようになっている。
今回のUpdate Allegraの問題は、この複数のインデックス サーバーの同期化が、なかなか完了しないこと。
そのため、ランダムにアクセスするデータセンターが同じものではないため、検索するたびに順位が違って表示され、Webマスターからは非常に気を揉む状況が続いているのである。
Update Allegraとデータセンター
実は、インデックス サーバーに格納されているインデックスは、データによって複数に分かれている。
PageRankインデックス、バックリンク・インデックス、関連ページ・インデックス、タイトル・インデックス、テキスト・インデックス、アンカーインデックス、などなど。
特別構文の検索子に対応する数だけ、もちろんそれ以上、インデックスは複数存在するだろう。
つまり、日付やファイルタイプなどもあるわけだ。
2005-03-20 12:00現在
インデックスが複数存在するというのは、データセンターごとに確認されるそれぞれのインデックスに複数の世代が見られていることからも分かる。
| インデックス | 世代数 |
|---|---|
| PageRank | 2世代 |
| バックリンク | 3世代 |
| 関連ページ | 2世代 |
| タイトル | 4世代 |
| テキスト | 4世代 |
| アンカー | 2世代 |
216.239.37.x、216.239.39.x、64.233.161.xが、インデックスのすべてが最新のようだ。
だからといって、これらのデータセンターの検索結果で統一されるとは限らないのだが。
さらに、[ 他、○○内のページ ]が表示されないデータセンターも多数あって、複雑な様相になっている。
Update Allegra 更新の特徴
バックリンク・インデックスの更新は、まず2005-02-04にはじまり、次に2005-03-03から、その前のバックリンク・インデックス未更新のデータセンターがありながら、再度バックリンク・インデックスとPageRankインデックスの更新がはじまっている。
更新がこれほど長引くとは思わなかったし、バックリンク・インデックスが3世代分を表示するというイレギュラーな現象だったので、最近のGoogle Danceの特徴であるバックリンクの変化のみを追いかけていた。
従来は、PageRankインデックスは、気まぐれに更新されていた。
さらに、
バックリンクインデックスの更新前・更新後のデータセンターでも、順位は異同が見られなかった。
つまり、見えるバックリンク系インデックスは分離して更新され、かつ順位付けとも無関係になっていること、さらにバックリンク系以外のタイトル・テキスト・アンカーなどの順位付け(ランキング)に深く関与しているインデックスは、セットで一挙に更新されていたと想像される。
今回は、このランキング系インデックスさえも、それぞれ単独に更新がおこなわれているような現象が見られるのだ。
Googleにとって、かなり歴史的な更新となるのかもしれない。ということは、アルゴリズムの大変更ということである。
追記
これまで、アルゴリズムが2タイプ、SERPs(検索結果)が数パターンと記してきたが、修正したい。
各ランキング系インデックスの世代数の順列組み合わせ分ほど、アルゴリズムというか、SERPsのパターンというか、検索順位の異同が表示される可能性がある。
ついでに言えば、アルゴリズムに加えて、フィルタが効いているのではと思われるデータセンターもある。
2005-03-20 02:51 PM | コメント (0) | トラックバック (0) [ 管理人編集 ]



