[ 管理人編集 ]
検索エンジンの基礎知識
検索エンジンの機能
- ロボット
- 世界中のサイトを巡回してWebページを取得する
- 世界中のサイトを巡回してWebページを取得する
- インデックス
- ロボットが集めたWebページをシステム的にデータベースに蓄積していく
- インデックスは、インデックスサーバまたはデータセンターにおかれる
- アルゴリズム
- 検索エンジンの生命であり、運営者のポリシーが結晶している
- いかにキーワード検索がユーザーの期待通りの結果を出せるか
- フィルタ
- アルゴリズム通りの検索結果では支障がある場合に作為的に表示を変更している
- 例えば、アダルト関連や、あからさまなスパム、過剰SEOなど
ロボット
スパイダー、クローラー。
検索エンジン側では、動的に生成されるファイルやFlashなど、できるだけ取得できないファイル形式を少なくする努力がある。
また、優良サイトへの頻繁な巡回、深い階層をたどること、あるいはSEOを許さない隠密裏のクロールなど、日々色々な課題をもって性能アップしている。
Webマスター側では、いかにロボットの巡回を誘導できるかどうか、ページが取得してもらえなければ検索にはかからない。
Googlebot
グーグルボット。Googleのインデックスに追加したり、インデックスを更新するために巡回するロボット、スパイダー。また、キャッシュ用にも巡回している。
Yahoo! Slurp
ヤフースラープ。Yahoo!のロボット、スパイダー、クローラー。
MSNBot
2005-06-25から日本語正式版としてスタートしたマイクロソフトの独自検索エンジンMSNのロボット、スパイダー、クローラー。
Googleのサーバ・データセンター
Googleのサーバは実に数多く存在していて、Google Danceの原因となっている。
- Webサーバ
- 検索の時にユーザーがアクセスする
- 検索語に他のサーバのデータを表示する
- インデックスサーバ
- Webページ情報を格納している
- ドキュメントサーバ
- キャッシュ(タイトルやスニペットを含む)を格納している
- 広告サーバ
- AdWordsやOverture関係
インデックス
インデックスは、Webページを検索エンジン的に分解してデータセンターのインデックスサーバに格納されたもの。タイトル、アンカー、URI、PageRank(ページランク=Googleのみ)、バックリンクなどが含まれる。
これが、キーワード検索のデータベース。
HTML、pdf、asp、jsp、hdml、shtml、xml、cfm、doc、xls、ppt、rtf、wks、lwp、wri
Yahoo!
HTML、.pdf、.xls、.ppt、.doc、.txt
Yahoo!は、CGIをパラメータなしでインデックスするようだ。
MSNサーチ
HTML、.pdf、.doc、.xls、.ppt、.jpg、.gif、etc、.wav、.aiff、.avi、.mpeg、.mp3、.ocx、.vbs、.dcr、.js
キャッシュ
Webページの検索エンジン的コピー、スナップショットで、データセンターのドキュメントサーバに格納される。また、インデックスとは別物。
このキャッシュが無ければ、検索エンジンでのキーワード検索では表示されない。
ロボットの巡回が頻繁に行われるサイトは、たびたびキャッシュが更新される。
SERPs
検索エンジンの検索結果、SERPとも称される。Search Engine Results Pagesの略。つまり、いつものキーワード検索の順位付けされた結果画面であり、サイトオーナーを喜ばせたり嘆かせたりする源。
スニペット
検索エンジンのSERPsは、タイトルならびに紹介文を表示しているが、この紹介文の部分をスニペットという。スニペットは、KWIC方式によって表示されている。
バックリンク
バックワードリンク(Backward Link)、インバウンドリンク、被リンクともいわれる。そのWebページへのリンクであり、どれだけの数かという量と、Googleの場合は、相手のPageRankの高低の質が問われる。
アルゴリズム
Algorithm。検索エンジンがポリシーとプログラミングによって作り上げた上位表示のルールのこと。アルゴ(Algo)と略称されることもある。Relevancyなどと、ややこしく表現されることも。
フィルタ
Googleの場合は、ブラウザのアドレス欄のURI末尾に「&filter=0」を加えることによって、解除されるフィルタがある。
アダルトフィルタ
アダルトコンテンツは表示しない設定。Googleのイメージ検索では「&safe=off」とアドレス欄末尾に付加すると…
スパムフィルタ
一般的には、ミラーサイトやメタタグリダイレクトなど、スパムと認知されているものに対して、SERPsに出さない、キャッシュを出さない、などの処理がなされている。
OOP
Over-Optimization Penaltyの略で、過剰なSEOに対する、順位下落などのペナルティを与えるようなフィルタのこと。
OOPは特別構文検索で検知できることもある。
Sandbox Effect
グーグルの悪魔的フィルタ「SandBox Effect」、「Sandbox~Googleのフィルタ攷」を参照。
特別構文
検索エンジンの検索は、通常のキーワード入力からの検索のみでなく、いろいろある。またこの特別構文によって、SEOの検証を行うことができる。
Googleの特別構文、Yahoo!の特別構文、新MSNの特別構文
KWIC
KeyWord In Contextの略。Googleは、SERPのスニペットをKWIC方式で表示している。基本的には、キーワードを含むWebページのはじめから100字程度を表示。キーワードを含む文章が切れ切れになっている場合は、つなぎ合わせて100字程度でスニペットを作成する。
Googleを他の検索エンジンと区別するものと言えば、PageRankが常套であるが、このKWICも同様にGoogle以前の検索エンジンを旧式に追いやる画期的なものなのであった。
クラスタリング
キーワード検索で、同一ドメインのページがいくつも表示されない検索エンジンの仕組み。
GoogleやYahoo!(YST)などでは、同一ドメイン2ページしか表示されない。
[ 他、~内のページ ]、[~ から検索]
プロバイダや無料サービスのホームページスペースは、不利となる。最近はやりのブログサービスも、URIがどうなっているか、よく確認すること。
検索エンジンの世代
検索エンジンの世代については、検索デスクの第3世代Web検索エンジンについてから借用。
第1世代検索エンジン
コンテンツの一部分だけを処理。
第2世代検索エンジン
コンテンツの全部を処理。
第2世代は全文検索ができて、かつタグを処理して得られる逆リンクの検索ができるかどうかで判断します。したがって、優れた形態素解析を開発して日本語全文検索していても逆リンク情報を提供しないところは第1世代とみなします。世界ではAltaVista(1995-12)、日本ではgoo(1997-03)。
第3世代検索エンジン
コンテンツ間の関連性を処理。文書の中のキーワードだけでなく、文書間のリンクによる、関連性に焦点を合わせています。
第2世代ではリンクを単に表示していただけですが、第3世代ではリンクを検索に利用するようになりました。Google(1999-10)、日本語Google(2000-09)。