Yahoo!とGoogleの検索上位 SEOマニュアル 好評発売中!
検索エンジンの基礎知識
検索エンジンの機能
- ロボット
- 世界中のサイトを巡回してWebページを取得する
- インデックス
- ロボットが集めたWebページをシステム的にデータベースに蓄積していく
- インデックスは、インデックスサーバーまたはデータセンターにおかれる
- アルゴリズム
- 検索エンジンの生命であり、運営者のポリシーが結晶している
- いかにキーワード検索がユーザーの期待通りの結果を出せるか
- ペナルティ(フィルターなどによる)
- アルゴリズム通りの検索結果では支障がある場合に作為的に表示を変更している
- 例えば、アダルト関連や、あからさまなスパム、過剰SEOなど
ロボット
スパイダー、クローラー。
検索エンジン側では、動的に生成されるファイルやFlashなど、できるだけ取得できないファイル形式を少なくする努力がある。
また、優良サイトへの頻繁な巡回、深い階層をたどること、あるいはSEOを許さない隠密裏のクロールなど、日々色々な課題をもって性能アップしている。
Webマスター側では、いかにロボットの巡回を誘導できるかどうか、ページが取得してもらえなければ検索にはかからない。
Googlebot
グーグルボット。Googleのインデックスに追加したり、インデックスを更新するために巡回するロボット、スパイダー。また、キャッシュ用にも巡回している。
Yahoo! Slurp
ヤフースラープ。Yahoo!のロボット、スパイダー、クローラー。
アメリカYahoo!の検索はBingに、日本Yahoo!の検索はGoogleに切り替わったため、Yahoo!のロボットも消滅。
BingBot
マイクロソフトの独自検索エンジンBingのロボット、スパイダー、クローラー。
Googleのサーバー・データセンター
Googleのサーバーは実に数多く存在していて、Google Danceの原因となっている。
- Webサーバー
- 検索の時にユーザーがアクセスする
- 検索語に他のサーバーのデータを表示する
- インデックスサーバー
- Webページ情報を格納している
- ドキュメントサーバー
- キャッシュ(タイトルやスニペットを含む)を格納している
- 広告サーバー
- AdWordsやOverture関係
インデックス
インデックスは、Webページを検索エンジン的に分解してデータセンターのインデックスサーバーに格納されたもの。タイトル、アンカー、URL、PageRank(ページランク=Googleのみ)、バックリンクなどが含まれる。
これが、キーワード検索のデータベース。
キャッシュ
Webページの検索エンジン的コピー、スナップショットで、データセンターのドキュメントサーバーに格納される。また、インデックスとは別物。
このキャッシュが無ければ、検索エンジンでのキーワード検索では表示されない。
ロボットの巡回が頻繁に行われるサイトは、たびたびキャッシュが更新される。
アルゴリズム
Algorithm。検索エンジンがポリシーとプログラミングによって作り上げた上位表示のルールのこと。アルゴ(Algo)と略称されることもある。Relevancyなどと、ややこしく表現されることも。
SERP
検索エンジンの検索結果、SERPsとも称される。Search Engine Results Pagesの略。つまり、いつものキーワード検索の順位付けされた結果画面であり、サイトオーナーを喜ばせたり嘆かせたりする源。
スニペット
検索エンジンのSERPは、タイトルならびに紹介文を表示しているが、この紹介文の部分をスニペットという。スニペットは、KWIC方式によって表示されている。
バックリンク
バックワードリンク(Backward Link)、インバウンドリンク、被リンクともいわれる。そのWebページへのリンクであり、どれだけの数かという量と、Googleの場合は、相手のPageRankの高低の質が問われる。
ペナルティ
SEO塾では特に、レガシーなブラックハット(つまり古典的なスパム)によるものではなく、ごく普通のSEOによる不審な順位ダウンに対して「ペナルティ」と称している。
例:Yahoo!の「TDP(トップページ・ダウン・ペナルティ)」
フィルター
Googleの場合は、ブラウザーのアドレス欄のURL末尾に「&filter=0」を加えることによって、解除されるフィルターがある。
アダルトフィルター
アダルトコンテンツは表示しない設定。Googleのイメージ検索では「&safe=off」とアドレス欄末尾に付加すると…
スパムフィルター
一般的には、ミラーサイトやメタタグリダイレクトなど、スパムと認知されているものに対して、SERPに出さない、キャッシュを出さない、などの処理がなされている。
OOP(過剰SEO)
Over-Optimization Penaltyの略で、過剰なSEOに対する、順位下落などのペナルティを与えるようなフィルターのこと。
OOPは特別構文検索で検知できることもある。
Sandbox Effect
グーグルの悪魔的フィルター「SandBox Effect」、「Sandbox~Googleのフィルター攷」を参照。
特別構文(検索コマンド)
検索エンジンの検索は、通常のキーワード入力からの検索のみでなく、いろいろある。またこの特別構文によって、SEOの検証を行うことができる。
Googleの特別構文、Yahoo!の特別構文、新MSNの特別構文
クラスタリング
キーワード検索で、同一ドメインのページがいくつも表示されない検索エンジンの仕組み。
GoogleやYahoo!(YST)などでは、同一ドメイン2ページしか表示されない。
[ 他、~内のページ ]、[~ から検索]
プロバイダや無料サービスのホームページスペースは、不利となる。最近はやりのブログサービスも、URLがどうなっているか、よく確認すること。
Caffeineインデックス以降、Googleのクラスタリング・アルゴリズムがビジネスサイトオーナーを苦しめている。
KWIC
KeyWord In Contextの略。Googleは、SERPのスニペットをKWIC方式で表示している。基本的には、キーワードを含むWebページのはじめから100字程度を表示。キーワードを含む文章が切れ切れになっている場合は、つなぎ合わせて100字程度でスニペットを作成する。
Googleを他の検索エンジンと区別するものと言えば、PageRankが常套であるが、このKWICも同様にGoogle以前の検索エンジンを旧式に追いやる画期的なものなのであった。
検索エンジンの世代
検索エンジンの世代については、検索デスクの第3世代Web検索エンジンについてから借用。
第1世代検索エンジン
コンテンツの一部分だけを処理。
第2世代検索エンジン
コンテンツの全部を処理。
第2世代は全文検索ができて、かつタグを処理して得られる逆リンクの検索ができるかどうかで判断します。したがって、優れた形態素解析を開発して日本語全文検索していても逆リンク情報を提供しないところは第1世代とみなします。
世界ではAltaVista(1995-12)、日本ではgoo(1997-03)。
第3世代検索エンジン
コンテンツ間の関連性を処理。文書の中のキーワードだけでなく、文書間のリンクによる、関連性に焦点を合わせています。
第2世代ではリンクを単に表示していただけですが、第3世代ではリンクを検索に利用するようになりました。
Google(1999-10)、日本語Google(2000-09)。
サイト内検索(by Googleカスタム検索)







