2005-01-05
VIPS - 新MSNサーチのアルゴリズム
「Block-level Link Analysis」が、新MSNのアルゴリズムの根幹であるが、検索エンジンのアルゴリズム自体は「VIPS」とMicrosoftは呼んでいるようだ。
- New Ways to Search the Web
- Block-based Web Search(July 2004)
- Block-level Link Analysis(June 2004)
- VIPS: a Vision-based Page Segmentation Algorithm(November 2003)
- Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation(December 2002)
「a Vision-based Page Segmentation Algorithm」を略して「VIPS」となる。
VIPSアルゴリズムとは
まず、開発スケジュールから、2002年末には既に目標となっていたことになる。
つまり降って湧いたようなその場しのぎではなく、またGoogle買収に失敗してから方向転換したとか、そういった類ではない。
腰を据えてじっくり開発に励んでいたことになる。
リンクの位置
要点は、リンクというかハイパーテキストがWebページの大きな要因ではあるものの、それがどこに書かれているかをプログラムとして見抜き、コンテンツパーツに位置するものだけを抽出する技術のことらしい。
つまり、ナビゲーション、テキストやバナーの広告、トップページの下部の相互リンク、リンク集のサイト紹介ページ、などに位置するリンクは、重み付けから排除するということだ。
人間の視覚をシミュレートする
人間であれば、コンテンツとそれ以外を区別できる。
つまりトピックを解説し、その自然な流れでほかへリンクしている書式と、不自然な、あるいは意図的なリンクの書式を識別できるわけだ。
簡単には、以下のような書式が続けば、コンテンツではないことが分かる。
<a href="hogehoge">あいうえお</a>
<a href="hogehoge">かきくけこ</a>
<a href="hogehoge">さしすせそ</a>
<a href="hogehoge">たちつてと</a>
また、このページの右のサイドバーに並ぶナビゲーションや、下のエントリーリンクは、ひと目でコンテンツとは違うと分かるはずだ。
問題は、コンテンツやそれ以外のパーツを、ブロックとして、一塊として、プログラム的に腑分けし、コンテンツパーツ以外はランキングの重み付けから、まとめて除外するというアルゴリズムであるということである。
新MSNの最適化とは
日本語での実装が課題であるが、リンクがあれば、その前後に有意味の文章が記述され、リンクのテキストと前後の文章の関連性が高くなければ、そのリンクは無効となる可能性がある。
逆に言えば、ダラダラとリンクを並べず、文章をきっちり書いて、その中にリンクを貼ることが必須となるだろう。
キーワードを書く位置によって、リンクを置く位置によって、塊ごと無視されるから大ごとになる。
さらには、Googleのフィルタと同じように、変なところにキーワードを書き込むと、順位下落のペナルティが発動するようになるかもしれない。
検索エンジンを意識しない
ますますもって、お手軽SEOなんてできなくなるわけだ。
ということは、ユーザー対策こそ究極の検索エンジン対策ということになる。
SEOとは、優良コンテンツ作成スキルと同等になってくる。
2005-01-05 12:16 PM | コメント (0) | トラックバック (0) [ 管理人編集 ]



