2005年05月20日

【重要】:Googleで検索できる範囲 このエントリーをはてなブックマークに追加

検索エンジンで現在かなりの市場をキープしていると思われる Google だが、どのくらいのサイトを網羅しているのか?
http://www.google.co.jp/intl/ja/why_use.html によると、
Google は 80 億以上もの URL を検索できます。
80億以上の URL で構成される Google のインデックスは、他に類がなく、インターネット上の最も役に立つWebページの包括的な集合体です。インデックスサイズ自体そのものは、検索結果を表示する鍵ではありませんが、関連した検索結果を選ぶ上ではもっとも影響力があります。

と書かれています。
80億ってちょっと凄いなーと思ってみて、いろいろ検索してみる。
ありきたりだが、りょーちのページの右上のカスタム検索で「書籍」という言葉で検索すると、
書籍 の検索結果のうち 日本語のページ 約 1,140,000 件中 1 - 100 件目 (0.19 秒)
という結果が返って来た。おーやはり凄いねと思い、りょーちはそこでふとこんなことを思った。
1,140,000目にはどんなサイトがあるのだろう・・・

うーむ。これは試して見なければと思い、ちょっと試して見ることにした。書籍 の検索結果のうち 日本語のページ 約 1,140,000 件中 101 - 200 件目 (0.19 秒)のURLが
http://www.google.com/custom?q=%E6%9B%B8%E7%B1%8D&num=100&hl=ja&lr=&ie=UTF-8&oe=Shift_JIS&inlang=ja&newwindow=1&c2coff=1&client=pub-0322526454137521&cof=FORID:1%3BGL:1%3BBGC:FFFFFF%3BT:%23000000%3BLC:%230000ff%3BVLC:%23663399%3BALC:%230000ff%3BGALT:%23008000%3BGFNT:%230000ff%3BGIMP:%230000ff%3BDIV:%23336699%3BLBGC:3399CC%3BAH:center%3B&domains=ryouchi.seesaa.net&start=100&sa=N
となっている。

GET Methodで渡されている変数のnum=100の100は100件づつ表示するという意味で、start=100の100はおそらく、100件目+1件目(つまり101件目)から表示するってことだな。
つまり、表示開始件数をxとするとx = ( start + 1 ) ってことじゃん。
ってことは start = x - 1 ってことなので、1,140,000件目を表示するには、start = 1140000 - 1 = 1139999
つまり、
http://www.google.com/custom?q=%E6%9B%B8%E7%B1%8D&num=100&hl=ja&lr=&ie=UTF-8&oe=Shift_JIS&inlang=ja&newwindow=1&c2coff=1&client=pub-0322526454137521&cof=FORID:1%3BGL:1%3BBGC:FFFFFF%3BT:%23000000%3BLC:%230000ff%3BVLC:%23663399%3BALC:%230000ff%3BGALT:%23008000%3BGFNT:%230000ff%3BGIMP:%230000ff%3BDIV:%23336699%3BLBGC:3399CC%3BAH:center%3B&domains=ryouchi.seesaa.net&start=1139999&sa=N
となるはず。
でOKと思ってアクセスしてみると、
大変申し訳ございませんが、Google では 1000 件以上の検索結果は表示しておりません (1139999 件目以降の結果をリクエストされました)。

・・・・
え、そーなんだ。ってことはいくら検索条件にHitしてもGoogleでは1000件より先のものは表示されないようだった。はじめて知ったよ、そんなこと。
しからば、しからば、100歩譲って1000件目はどーなのよ?
さっきの公式(?)で1000件目を表示するには、start = 999 だから、
http://www.google.com/custom?q=%E6%9B%B8%E7%B1%8D&num=100&hl=ja&lr=&ie=UTF-8&oe=Shift_JIS&inlang=ja&newwindow=1&c2coff=1&client=pub-0322526454137521&cof=FORID:1%3BGL:1%3BBGC:FFFFFF%3BT:%23000000%3BLC:%230000ff%3BVLC:%23663399%3BALC:%230000ff%3BGALT:%23008000%3BGFNT:%230000ff%3BGIMP:%230000ff%3BDIV:%23336699%3BLBGC:3399CC%3BAH:center%3B&domains=ryouchi.seesaa.net&start=999&sa=N
ってことでしょ。
で、見て見ると、
大変申し訳ございませんが、Google では 1000 件以上の検索結果は表示しておりません (999 件目以降の結果をリクエストされました)。

え、1000件以上じゃないじゃん。
うーむ、おかしいと思い、いろいろ考えて見たところ、100件ごとに表示するぞ、っていうパラメータがnum=100だということに気づき、じゃあnum=1にしてみたらどうよと思い、
http://www.google.com/custom?q=%E6%9B%B8%E7%B1%8D&num=1&hl=ja&lr=&ie=UTF-8&oe=Shift_JIS&inlang=ja&newwindow=1&c2coff=1&client=pub-0322526454137521&cof=FORID:1%3BGL:1%3BBGC:FFFFFF%3BT:%23000000%3BLC:%230000ff%3BVLC:%23663399%3BALC:%230000ff%3BGALT:%23008000%3BGFNT:%230000ff%3BGIMP:%230000ff%3BDIV:%23336699%3BLBGC:3399CC%3BAH:center%3B&domains=ryouchi.seesaa.net&start=999&sa=N
って感じにしてみた。
そしたら、書籍 の検索結果 約 1,140,000 件中 888 - 888 件目 (0.61 秒)とのこと。うーむ。
最も的確な結果を表示するために、上の888件と似たページは除かれています。
検索結果をすべて表示するには、ここから再検索してください。

1000件目もなく、888件などという中途半端な数字・・・
「888って末広がりじゃん」などと思って、最後に表示されたサイトを見て見ると、
人気.com - 書籍
人気.com - 書籍:書籍,人気,ランキング. ... 日本最大のマンガ(電子書籍)販売 サイト!PCにダウンロードして、すぐ読めます。マンガを中心に4800冊!無料お試し版 もあります!手塚治虫など往年の名作マンガから、最近の人気マンガまで2000冊以上の ...

うーむ。人気あるのか・・・
ということで今日の結論としては、
Googleで検索されるためには、少なくとも上位1000件以内に入ってないとだめです
ってことであった。
そーゆーことで、SEOとかSEMとかってやっぱ重要なのかなーと思ったのだ。(この記事もGoogleで検索されているのかどうか不明じゃよ)

#1000件ルールなんて知らんかった・・・
posted by りょーち | Comment(4) | TrackBack(0) | Web周辺技術
この記事へのコメント
へぇ!あれって無尽蔵に検索していけるんじゃないんですね。
そういうことを調べられるりょーちさんスゴイです。
私はそういう知識はまったくないので「ほえ〜」という感じです。
表示されませんって・・・(苦笑)
上位1000件はどうやって決まるんですか?
クリック数?
Posted by at 2005年05月20日 22:17
1000件と言えば2ちゃんねるを思い出しちゃいました。
つながりはないんだろうけど…。

ところで、Blogの引越しをしまして、lリンクをさせていただきましたので、ご報告に上がりました。
このところ、ギアが読書モードに入っていないので、いろいろなかなかなのですが、それでもまた、ぼちぼち感想文をUPしたいと思っています。
Posted by さくら at 2005年05月23日 00:40
朔さん、こんにちは。りょーち@管理人です。
コメントいただきありがとうございます。
>あれって無尽蔵に検索していけるんじゃないんですね
この記事の内容を試して見るまで、りょーちも無尽蔵に検索できるものと思ってました(^^;
私も知識があるわけではないので、手作業で「あ、できた」、「あ、ダメだ」というアナログ的な手法で試して見ました(うーむ)。
上位1000件はおそらく、googleのpagerank(ページランク)を元に表示しているのではないかと想像します。
googleは外部からのリンクが多いと「そのページは重要だ」という判断をしているようです。
みなさんのWebサイトにYahooやasahi.comなどのリンクが沢山あるため(つまり沢山の人が感心を持つため)「このサイトは重要だ!」と判断するって感じのようです。クリック数やアクセス数に関してはgoogleのクローラ(google BOT)が取得できないため、指標にはしていないと思います。
やはりSEOが重要なんですかねー。
ではでは。
Posted by りょーち at 2005年05月23日 10:07
さくらさん、こんにちは。りょーち@管理人です。
コメントいただきありがとうございます。
>1000件と言えば2ちゃんねるを思い出しちゃいました
うーむ、確かに(^^;
ココログからlivedoorへお引越しですね。
現状、りょーちはseesaaにある程度満足しているので、今のところ引越しは考えていません。
#引越しすると、pagerankをまた上げる努力を
#しなければ・・・
うーむ。
http://profile.yahoo.co.jp/biz/interim/4753.html
を見るとlivedoorは結構好調のようですねー。

ココログのコンテンツはlivedoorに移行されるのですか?
また、お邪魔させていただきます。
ではでは。
Posted by りょーち at 2005年05月23日 10:16
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント: