blog に限らずいろんなサイトで検索エンジンに引っかかるかどーかなのでサイト保有ユーザは頭を悩ませているよーな気がする。「 blog は Search Engine Optimization (検索エンジン最適化)の観点からなかなかよいばい」というよーなことを言われている。
seesaa blog の場合はどーなんだろう?
この blog では殆どの記事がリサイクル不可能な澱のよーなものなのだが、Google には拾われているっぽい。
Google はクローラーと呼ばれるプログラムが御用聞きのよーにいろんなサイトをぐるぐる回って、コンテンツをかき集めている。Google のよーなロボット型検索エンジンはあるルールに則って検索対象サイトの情報をかき集めている。
そのルールとしてサイトのトップディレクトリに「robots.txt」にそのルールを書いたり、HTML内のMETAタグに
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
などと書くことでここは検索対象にしないでね(あるいは検索対象にしてもよいよ)というよーなことができるっぽい。(.htaccessを利用する方法もあるのかのぅ?)
ただ、robots.txtが置かれていれば必ずどのサーチエンジンのクローラーも巡回しないかといえばそうでもなさそう。言ってみれば紳士協定的な役割なのだろう。場合によってはお行儀の悪いクローラーも存在するはず。(そういうクローラーを作る人自身がお行儀が悪いとも言えなくもないのだが・・・)
このseesaa blogにも実は robots.txt が存在する。
http://ryouchi.seesaa.net/robots.txt
上記のリンクを見ればわかると思いますが、seesaa blogの robots.txt の内容はこんな風にかかれているのだ。
User-agent: *
Disallow: /category/
Disallow: /archives/
ふむ。これはどーいうことが書かれているかといえば、「すべての User-agent に対して /category/ 以下のディレクトリと /archives/ 以下のディレクトリの内容は検索エンジンのクローラーで収集しちゃだめよ」って書かれているっぽい。seesaa blogの場合、各個別の記事は /article/ 以下に置かれているので記事自体は検索対象になっている(当たり前?)。
上記の robots.txt の内容を信じれば、seesaa blog のカテゴリのHTMLファイルと月別アーカイブのHTMLファイルは検索エンジンのクローラーから見向きもされないということになる。(この認識はあっていますか? 識者の方、コメントいただければ幸いです)
この挙動は果たしてどうなのか? robots.txtについて、他のblogも調べてみた。
・ココログ:robots.txtなし?
・JUGEM:robots.txtなし?
・アメーバブログ:robots.txtなし?
・はてなダイアリー:robots.txtなし?
・livedoor Blog:robots.txtなし?
・Excite blog:robots.txtなし?
・楽天広場:robots.txtなし?
・So-net blog:オーケンブログ:robots.txtなし?
・ウェブリブログ:robots.txtなし?
・goo ブログ:robots.txtあり(GooglebotのみsearchディレクトリをDisallow)
・FC2ブログ:FC2ブログポータルのみに設定されている? robots.txt
・ヤプログ:robots.txtなし?
・Yahoo!ブログ:robots.txtなし?
・Blogger:robots.txtなし?
なんとなくパッと見だがrobots.txtを利用していないところが多い気がする。Seesaaのように設定しているほうが珍しいってことか? うーむ、よくわからん。
