2004-08-14
Block-level Link Analysis - 新MSNのアルゴリズム?
何やら、Microsoftの新MSNサーチは、もの凄く画期的な検索アルゴリズムを実装しようとしているらしい。
情報源は、
Block-level Link Analysisである。
何が革命的かという前に、従来の検索エンジンの、特にリンク解析によるアルゴリズムをおさらいしておこう。
PageRank
まずは、Google自身による説明である。
PageRank™について
PageRank™は、Webの膨大なリンク構造を用いて、その特性を生かします。ページAからページBへのリンクをページAによるページBへの支持投票とみなし、Googleはこの投票数によりそのページの重要性を判断します。しかしGoogleは単に票数、つまりリンク数を見るだけではなく、票を投じたページについても分析します。「重要度」の高いページによって投じられた票はより高く評価されて、それを受け取ったページを「重要なもの」にしていくのです。
こうした分析によって高評価を得た重要なページには高いPageRank™(ページ順位)が与えられ、検索結果内の順位も高くなります。PageRank™はGoogleにおけるページの重要度を示す総合的な指標であり、各検索に影響されるものではありません。むしろ、PageRank™は複雑なアルゴリズムにしたがったリンク構造の分析にもとづく、各Webページそのものの特性です。
そして、あまりにも有名なページからの引用を追加しておく。
「多くの良質なページからリンクされているページは、やはり良質なページである」
(Google の秘密 - PageRank 徹底解説)
つまり、量としてはリンクされるほどPageRankは高い、そして質としてはPageRankが高いページからリンクされるほどPageRankは高い。
基本的には、ページの価値はリンクの量と質によるということである。もちろんGoogleが採用しているアルゴリズムである。
HITS
HITSとは、Hyperlink-Induced Topic Searchの略であり、Kleinbergが考案したアルゴリズムである。
重要なページにリンクされているページは、やはり重要であるというアルゴリズムであり、PageRankと同様である。
特徴的なのは、HubとAuthorityという概念であり、たくさんのページからリンクされるページは権威があり、たくさんのページへリンクをもつページは情報源として役に立つ、といった考え方が基本となっている。
ハブページは優良リンク集であり、オーソリティページは優良コンテンツである。
多くのハブページからリンクされるページがオーソリティページとなり、多くのオーソリティページへリンクしているページがハブページとなる。逆に、ハブページと認められないページからのリンクばかりではオーソリティページとは認められず、オーソリティページと認められるページへ数多くリンクしていないページはハブページと認められない。
基本的には、ページの価値は、権威の度合(Authority)と情報源の度合(Hub)によるということである。不確かな情報であるが、Yahoo!(YST)が採用しているアルゴリズムらしい。
Block-level Link Analysis
さて、PageRankもHITSも、リンク構造の解析をベースにしているが、ページ単位のアルゴリズムである。
これに対して、Microsoftの「Block-level Link Analysis」は、その名のとおり、ページ単位ではなく、ページの中のブロックレベルのリンク構造を解析して価値付けするアルゴリズムということらしい。
つまり、Microsoftは検索エンジンの新地平を切り開き、ページ対ページのリンク解析では不十分であり、書いてある内容によってページを複数のブロックに分け、リンク自体がどういった意味のブロックの中にあるのか解析し、リンク先の関連性を評価するというのである。
PageRankもHITSも、ページという分子レベルのアルゴリズムであるのに対して、Block-level Link Analysisは原子レベル、あるいは量子レベルのアルゴリズムであると。
このようなセマンティック解析をともなうアルゴリズムでは、古典的なスパムはすべて無効となってしまう。
本当にこのような理想郷が出現したなら、検索エンジンは一変してしまうかもしれない。まさか、Microsoftからそれが提供されるとは…
2004-08-14 01:14 AM | コメント (0) | トラックバック (0) [ 管理人編集 ]
