2009年12月10日

amazonの書籍情報データ化にOCRが使われている件 このエントリーをはてなブックマークに追加

ステファニー メイヤーのトワイライトという本を読んでいるのだが、これがなかなか面白い。Vol1の上下巻だけとりあえずかったが、読み終える前に続きがもうほしくなった。
なので、amazonで買うかなーと思い、検索してみた。そーすると検索結果に明らかに文字化けと思われる怪しい文字が表示され、たまげた。



「スー丁コア二ー・メブやー 田--+rDロh田nlmくrDにrD「 ブリガム ... 」



「es丁コア二ー・メブpー 田t園ロゴ叩。コ…円二rDに円 ...」

この文字化けははげしすぎませんか?
文字化けをよく見ると
「スー丁コア二ー・メブやー」
「スティファニー・メイヤー」
なんだね。
なんでこんなことが起きているかってーと「著作権や後袖の引用データーの作成にはOCRを使ってデータ化している」ってことが考えられるな。

amazonはもうちょっとOCRの精度を上げるべきじゃないかな?
日本語のわからない人が入力してるんじゃないんですよね?

他にも同じような文字化けを見かけたら教えてください。
(amazonでOCR使っているって常識?)
posted by りょーち | Comment(0) | TrackBack(0) | Web周辺技術
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:


×

この広告は90日以上新しい記事の投稿がないブログに表示されております。