2004-08-24
Ask Jeeves日本語版とそのアルゴリズムなど
知る人ぞ知る、Teomaで名が通っているAsk Jeevesの検索エンジンの日本語ベータ版が公開されたようだ。
Ask.jp クイック&スマート検索
さてそのアルゴリズムだが、まずはAsk Jeeves自身の語るところによると…
サイト機能 / Teomaの特徴
Webサイトの情報を多次元解析。オーソリティを見極める検索エンジン
Ask.jpの検索エンジンは、アスク ジーブス インクで開発され米国では”Teoma”として知られている検索エンジンに、日本語向けの大幅な改良を加え、構築されています。
Ask.jpの検索エンジンは、数億~数十億ページにもおよぶWebの中から、欲しい情報を「クイック&スマート」に見つけ出せるよう、設計されています。
最大の特徴は、Webを平面的なリンク構造の集合体とみるのではなく、多次元的な「Web空間」として認識できる点です。 例えるならば、広い宇宙の中から、自分が探しているたった一つの星を、簡単・確実に見つけ出すことができるエンジンです。
ユーザーが検索をすると、検索ワードと同一の概念を持つページ群(星雲)が検索時に動的かつ複数抽出されます。さらに、その同一概念(星雲)の中で、中心的なページ(恒星)とその他のページ(惑星)との関係を把握します。最終的には、どのページが”オーソリティ”として適切かが評価され、検索結果に集約されます。
このように、Ask.jpの検索エンジンでは、動的かつ多次元的にWeb空間が分析され、広範なWebの世界から見つけにくい特定の情報が詰まっているページ(惑星)へとユーザーを導くのです。
ユーザビリティ向上のための3大機能
Ask.jpでは、「クイック&スマート」に情報を探し出せるよう、3つの機能を提供します。
(1)「検索結果」表示機能
検索ワードに対して適切であると評価されたページから順に、検索結果がランキング表示されます。ランキング評価は、「サブジェクト・スペシフィック・ポピュラリティ」によって決定されます。また、概要部分は、検索ワードとそのページとの一致度を瞬時に判断しやすいように、該当ページ内から一番関係のある部分を表示します。
(2)「スマートファインダー」機能
検索ワードから類推して、絞込みのヒントとなる語句が表示されます。これらは、検索ワードと非常に近い関係にあると分析された語句です。このヒントとなる語句をクリックすることにより、検索範囲を的確に絞り込むことができます。また、入力時に思いもつかなかった語句がヒントとして表示され、検索自体が容易になります。
(3)「エキスパートリンク」機能
共通概念と分析されたページ群の中から、検索に役立つと思われる「リンク集サイト」を抽出します。このエキスパートリンクのサイトを活用することにより、簡単かつ迅速に目的の情報へ辿り着くことができます。
サブジェクト・スペシフィック・ポピュラリティ(Subject Specific Popularity)
当然、リンク解析型の検索アルゴリズムであり、Block-level Link Analysis~新MSNのアルゴリズム?にも解説しているHITSアルゴリズムのオーソリティ・アンド・ハブのコンセプトが採用されている。
一部Yahoo!(YST)でもHITSアルゴリズムが採用されていると言われているようだが、こちらはインデックスレベルの静的なランキングスコアで順位付けしているだろう。
これに対して、Ask Jeevesのサブジェクト・スペシフィック・ポピュラリティは、トピックごとに関連コミュニティやハブサイト(リンク集)を表示しており、クエリレベルで動的にランキングスコアを付け、検索結果を出しているはずだ。
アルゴリズムとして
まずは、トピック(キーワード)が記述されているか、アンカーテキストが貼られているページが抽出される。
抽出ページ郡の中から、トピックの「コミュニティ」構造が解釈されていく。
ハブ(リンク集)と、それからリンクを貼られているオーソリティ、さらにはオーソリティ同士のリンク構造も解析され、順位付けされる。
これが、ユーザーのクエリ(キーワード検索)に対して、その都度、動的にランキングスコアが計算され、検索結果ページに出るものと想像される。
ソーシャルネットワーク理論と、特定のトピックでコミュニティが形成されるという考えをベースに、自然発生的で無秩序なインターネットのハイパーテキストに対して、コミュニケーションという視点で関連性を整理している。
複雑なリンク解析とスパム
クエリ段階でダイナミックに順位付けするシステムとはいえ、動的なだけでなくPageRankやHITSよりもさらに複雑なリンク解析をともなうので、あくまでも想像だが新サイトや新規ページは恐らく不利になるだろう。
つまり、リンク解析アルゴリズムが高度になるほど、老舗サイトが上位表示される可能性が高まることになる。これはGoogleでもYahoo!(YST)でも同じだ。もちろん、キーワードにもよるし、Googleなどでの新規ページの上位フロックも否めないことも事実だ。
そして、同じように、ページ内キーワード記述(連呼や隠し文字)のような低レベルなスパムはもとより、自作自演のリンクもランキングスコアになりにくいだろう。
より正当なサイトが上位表示されるようになる。理論的には…
Googleや新MSNとの比較は?
グーグル・キラーと言われるだけあって、Googleとは別のアプローチで、トピック(検索キーワード)に対して関連性の高い結果を出すとともに、「スマートファインダー」で類似トピックのグループを抽出し、「エキスパートリンク」で関連トピックのリンク集サイトを表示するので、情報探索としては非常に秀逸である。
Googleはページ単位、Ask Jeevesもおそらくページ単位、よってトピックのブロックレベルのリンクを解析する新MSNの方がより優れていると想像される。もちろん実装され稼動してからの話だが…
また、日本ではGoogleの認知度もそれほどでもないので、この際、Ask Jeevesがより普及するのもいいことかもしれない。
2004-08-24 04:37 PM | コメント (0) | トラックバック (0) [ 管理人編集 ]


