2007年04月20日

phpのtidy関数でURLを指定するとタイトル名を取得するものをつくってみた このエントリーをはてなブックマークに追加

こんにちは、コスモ星丸です(嘘です)。

URLが分かっているが、そのURLのアクセス先のHTMLファイルのタイトル名をどうやって取得すればよいのかわからなかったのだが、mixiで聞いてみたところ、やっとわかった。
tidy関数を利用すればよさそうなことまではわかったのだったが文字化けしてしまうので、どーしよーかと悩んでいたが、tidyでパースする際に文字コードを指定すればよいということがわかった。

で、こんなサンプルをつくってみた。

JSONのデータを表示する
(サンプルはIEのみで動作するっぽい)


上記のソースをみてみるとわかるかと思うが、

http://www.usamimi.info/~ryouchi/title/?url=(取得したいURL)

で、下記のようなJSON形式でデータを取得できるっぽい。



{"url":"http:\/\/ryouchi.seesaa.net","title":"\u308a\u3087\u30fc\u3061\u306e\u99c4\u6587\u3068\u66f8\u8a55"}
文字コードはUTF-8になってます。


しかし、ここまではわかったが、これを利用する際、ドメインが異なると(クロスドメインのデータを取得していると)だめっぽいのぅ。

うーむ。どーすればよいのか?
謎じゃよ。

ちなみに、これを作ったきっかけは、例のIPCユーザによるコメントスパム報告用のフォームを自動的に作成しようかなと思ったりしたわけである。

先日作成した、アフィリエイトサービスプロバイダ利用チェックにもこの機能を使ってアホアフィリエイターのURLからアホアフィリエイターのサイト名を取得するのに利用しているっす。

ちなみに、phpのTIDY関数を利用して、タイトルタグを取得するphpのソースは下記になる。


TIDY、最強だな。
posted by りょーち | Comment(4) | TrackBack(0) | Web周辺技術
この記事へのコメント
17日の記事にコメント書いてる内に新記事が、、、

というか、toolの試作が出来てるなんて素敵過ぎます

多くのスパム被害者の為にも、vectorなり杜なり、PHP系のポータルなりにUPして貰えると素敵杉かもです

定期的に見に来ます〜
>ブックマークしときました
Posted by cres at 2007年04月21日 00:24
コメントスパムのお知らせ、ありがとうございました。

今は、結構巧妙なスパムがあるのですね。
勉強になりました。

わざわざ知らせてくださって、助かりました。
ま、なんとなくそんな気はしてたのですが^^;
やんなっちゃいますねぇ。
Posted by ユウ at 2007年04月21日 16:46
cresさん、こんにちは。りょーち@管理人です。コメントいただきましてありがとうございます。
スパマーの神経が伺いしれませんが、迷惑なことこの上ないっす。撲滅するまで、よろよろといろいろ考えたいと思います。
ではでは。
Posted by りょーち at 2007年04月22日 11:39
ユウさん、こんにちは。りょーち@管理人です。
彼奴らの所業はかなり酷過ぎですね。誰彼構わず無差別にコメントスパム発信ですからねぇ。
アホアフィリエイターにもほとほとこまりますね。ご参考になりましたら幸いです。ではでは。
Posted by りょーち at 2007年04月22日 11:42
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント: