2013年07月04日

PDFファイルのテキストだけを抜き出すStamplin Web API このエントリーをはてなブックマークに追加

PDF Text Extractor : Stamplin | Rest API

これは面白いな。
PHPのコードをローカルのxamppで動かしてみたところあっさり動いた。
手元にあるPDFファイルで試したところ、日本語もきちんと抽出できた。
結果がJSON形式で[texts]の中に1行づつ戻ってくるので処理もしやすそうですな。

注意として
  • The PDF file should be smaller than 1 Mbyte
  • No more than 1 request per minute (with a burst of 5 requests)
だそうです。
posted by りょーち | Comment(0) | TrackBack(0) | Web周辺技術
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント: