2005年07月04日

seesaa blogのGoogle Sitemapsを作る このエントリーをはてなブックマークに追加

また、懲りずに Google Sitemaps なのだが、 Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳。新しいURL登録方法はSEOに必須になる? [絵文録ことのは]2005/06/04 を参考にみてみるとなんとなくこんな風につくればよいのではないかなと思い、よろよろと作ってみた。
必要なもの:
・Webサーバ
・php5.0以降
 ・tidy関数2.0とcurl(Client URL Library)関数が利用できること
  tidyについては下記URLを参照
   Tidy関数
  curlについては下記URLを参照
   CURL, Client URL Library 関数

Windowsユーザの人で自分のマシンで手っ取り早く試すには、 apache friends - xampp for windows をダウンロードするのがよい。
インストールの方法は XAMPP - 開発環境一括インストール - phpspot あたりに事細かに書いてある。

で、無事インストールしたら、下記のプログラムを利用すればよい。



りょーちが借りているレンタルサーバではtidy2.0とcurlが利用できないのでソースのみの公開なのだ。

で、XAMPP上で上記プログラムを走らせて見た結果が こちら である。
なんとなくできていると思いませんか?

上記のスクリプトでは、GET METHODの引数としてurlとuserという引数を使っている。
urlには http://ryouchi.seesaa.net/ などと seesaa blog のURLを指定する。
userにはryouchiなどと適当な名前を指定する。このuserで指定した名前+.xmlというファイル名でGoogle Sitemaps用のファイルを作成するのだ。

GETメソッドで渡しているので実行後には下記のようなURLが表示されると思う。

http://[サーバ名]/[ディレクトリ名]/createSitemaps.php?sitelist=http%3A%2F%2Fryouchi.seesaa.net%2F&user=ryouchi

つまりここにアクセスすると、 http://[サーバ名]/[ディレクトリ名]/[user名].xml ができるわけである。
りょーちはpingサーバの仕組みを知らないのでなんともいえないが、pingサーバに
http://[サーバ名]/[ディレクトリ名]/createSitemaps.php?sitelist=http%3A%2F%2Fryouchi.seesaa.net%2F&user=ryouchi
を指定すれば、もしかしたら自動的に Google Sitemaps を更新してくれるのかもしれない。(違う?)

ちなみにここではseesaa blog用のGoogle Sitemaps作成スクリプトと銘打っているが、勿論この考え方で他のblogの Google Sitemaps を作成することも可能である。
変更点は下記のような感じ。

seesaaの場合:
・URLは http://ryouchi.seesaa.net/ などという形式 (118行目)
・index.rdf は http://ryouchi.seesaa.net/index.rdf に存在 (119行目)
・アーカイブ用のディレクトリは /archives/ 以下に存在(132行目)
・カテゴリー用のディレクトリは http://ryouchi.seesaa.net/category/ 以下に存在(128行目)
・記事用のディレクトリは http://ryouchi.seesaa.net/article/ 以下に存在(160行目)
・現在は http://ryouchi.seesaa.net/ に先ずアクセスし、/archives/ と http://ryouchi.seesaa.net/category/ を含むURLのいずれかを検索対象にしている(どちらかをすべてクロールすれば全てのarticleが取得できるので)(126行目/128行目)

という感じになっているのでこれらをお使いのblogにあわせてもらえればよい。

ココログの場合:(user→hoge)
・URL: http://hoge.cocolog-nifty.com/blog/
・index.rdf : http://hoge.cocolog-nifty.com/blog/index.rdf
・アーカイブ: http://hoge.cocolog-nifty.com/blog/yyyy/mm/
・カテゴリー: http://hoge.cocolog-nifty.com/blog/[カテゴリ名]/
・記事: http://hoge.cocolog-nifty.com/blog/yyyy/mm/[記事ファイル名]

yaplog.jp の場合:(user→hoge)
・URL: http://yaplog.jp/hoge/
・index.rdf: http://yaplog.jp/hoge/index1_0.rdf
・アーカイブ: http://yaplog.jp/hoge/monthly/yyyymm/
・カテゴリー: http://yaplog.jp/hoge/category_[xxx]/
・記事: http://yaplog.jp/hoge/archive/[xxx]

drecom.jp の場合:(user→hoge)
・URL: http://blog.drecom.jp/hoge/
・index.rdf: http://blog.drecom.jp/hoge/index1_0.rdf
・アーカイブ: http://blog.drecom.jp/hoge/monthly/yyyymm/
・カテゴリー: http://blog.drecom.jp/hoge/category_[xxx]/
・記事: http://blog.drecom.jp/hoge/archive/[xxx]
#あれ?yaplogと同じ?

jugem.jp の場合:(user→hoge)
・URL: http://hoge.jugem.jp/
・RSS: http://hoge.jugem.jp/?mode=rss
・atom: http://hoge.jugem.jp/?mode=atom
・アーカイブ: http://hoge.jugem.jp/?month=yyyymm
・カテゴリー: http://hoge.jugem.jp/?cid=[xxx]
・記事: http://hoge.jugem.jp/?eid=[xxx]

exblog.jp の場合:(user→hoge)
・URL: http://hoge.exblog.jp/
・RSS: http://hoge.exblog.jp/index.xml
・atom: http://hoge.exblog.jp/atom.xml
・アーカイブ: http://hoge.exblog.jp/myyyy-mm-dd/
・カテゴリー: http://hoge.exblog.jp/i[xx]
・記事: http://hoge.exblog.jp/[xxxxxxx]/

livedoor.jp の場合:(user→hoge)
・URL: http://blog.livedoor.jp/hoge/
・RSS: http://blog.livedoor.jp/hoge/index.rdf
・atom: http://blog.livedoor.jp/hoge/atom.xml
・アーカイブ: http://blog.livedoor.jp/hoge/archives/yyyy-mm.html
・カテゴリー: http://blog.livedoor.jp/hoge/archives/cat_[xxxxxx].html
・記事: http://blog.livedoor.jp/hoge/[xxxxxxx].html


ってな具合にいけるのではなかろうか?
どうであろう・・・

暇な人で「やってみたけどうまくいかなかった」「やってみたらうまくいった」的なご意見はこちらまでコメントいただきたいばい。よろしくね。
posted by りょーち | Comment(6) | TrackBack(1) | Web周辺技術
この記事へのコメント
大事なこと:
・文字コードはEUCで作成してます。
・proxyを利用しない場合は、
 curl_setopt ($ch, CURLOPT_PROXY, PROXY_HOST);
 をコメントアウトするとよいかも
Posted by りょーち at 2005年07月07日 01:19
Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳。新しいURL登録方法はSEOに必須になる? [絵文録ことのは]2005/06/04
によると、

> サイトマップファイルの場所で、そのサイトマップに含むことのできるURLの組み合わせが決まります。
> http://yoursite.com/catalog/sitemap.gz にあるサイトマップ・ファイルはhttp://yoursite.com/catalog/ に始まるURLを含むことができますが、http://yoursite.com/images/ に始まるURLを含むことができません。

とあるので、サイトマップファイルを作っても、あんまり意味がないんじゃないでしょうか?
Posted by 通りすがり at 2005年07月21日 14:12
通りすがりさん、こんにちは。りょーちと申します。ご指摘いただきましてありがとうございました。
ということは、
http://yoursite.com/catalog/
http://yoursite.com/images/
の二つを含むには、サイトマップファイルのおき場所を
http://yoursite.com/sitemap.gz
にすればよいってことなのでしょうか?
これなら両方拾ってくれそうな予感がしますがどうでしょう?
お暇なときにご指導いただければと思います。
ではでは。
Posted by りょーち at 2005年07月22日 13:51
確かにそうなんですが、seesaaって一番上の階層にファイルアップロード出来ましたっけ?
Posted by 通りすがり at 2005年07月24日 01:48
>seesaaって一番上の階層にファイルアップロード出来ましたっけ?

うーむ。できないよーな気がする。

http://www.google.com/webmasters/sitemaps/stats

で確認しましたが、STATUS=OKとなっていたので、これでクロールされているものと思っていました。
でも、OKになっていてもあまり意味ないかもしれませんね。
なんかいい方法ないですか?
通りすがりさんはどのようにされていますか?
Posted by りょーち at 2005年07月25日 01:03
いや…、なのでどうしたものかなと。
特に解決案は持ち合わせてないです。申し訳ない。

最初はStatsがOKになってたんですが、暫くして見るとDenied URLsと出てたので気付きました。
Posted by 通りすがり at 2005年07月25日 15:31
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:


seesaaブログでグーグルサイトマップを使う
Excerpt: はじめまして、記事中でブログを紹介させていただきました。
Weblog: えのさんのブログとアフィリエイトとSEOの基礎知識
Tracked: 2006-04-07 22:26