2011年8月24日水曜日

Acrobat Xの日本語ClearScanの問題

自炊本の文字認識で、Acrobat 9から導入されたClearScanが面白いという話を読んだ。

そこで試してみたのだが、なかなかよい。文字認識と同時に、文字のアウトラインを拾って新たなフォントのようにスキャン画像を置き換えるのだ。確認はしていないが、同じ文字と認識されたものは同じアウトラインを使っているように見える。処理結果が、なんとなく揃った文字のように見えるのだ。

英文書籍で試したところ、たいへん素晴らしい結果を得た。もとからアウトラインフォントで文字組みをしたかのような結果になる。

一方、日本語の文書に関しては必ずしもうまくいかない。

なにより問題なのは、「Acrobatは縦書きを知らない」ということだ。富士通のScanSnapは縦書き文書も縦横混在もうまく分解してそれぞれ適切に処理してくれるし、大昔のスキャナ添付のOCRでも縦書き文書の読み取りは(領域を指定すれば)できていた経験がある。特許の問題があるのかもしれないが、MacのOCRが壊滅的であることもあり、Adobe頼みであるからがんばってほしい。

そして更に今日遭遇したのは、文字認識処理が中断されるページがある、ということだ。これは困る。

このとき、Acrobat Proはこのようなダイアログを出して、いままでの文字認識結果を捨ててしまう。


「Paper Capture認識サービスのエラー」ということだが、せっかく認識した結果まで捨てて欲しくない。

そして、「この文書に今後発生するエラーを無視する」のチェックを入れてもかまわず、何度でもこのダイアログを出して停止してしまうのだ。何のためのチェックボックスなのかわからない。

同じ本で何度も出るため、このエラーを発生させる疑わしい例がなんとなくわかってきたような気がする。いま想定しているのは、以下のような場合だ。


つまり、グレーの背景に白抜きの文字があったとき、アウトラインの生成に失敗するのではないかと疑っている。背景の濃さによって通る場合もあるので、特定の条件で生じるものと思われる。なかにはこうした部分全体を図として、文字認識の対象としない場合もあるので、実験により現象の再現も可能かもしれない。

念のため、以上、ここに記しておく。

なお、動作環境は、Mac OS 10.7.1 Lion上のAcrobat Xバージョン10.1.0。Paper Captureプラグインのバージョンも10.1.0(日付10/10/26 6:34:15)だ。

追記:
Adobeの不具合報告フォームで本ページを報告した。

また、うまくいったケース(文字認識を断念して画像とした場合)を示しておく。

周囲の文字はアウトライン化されているが、網掛け白抜きの部分はビットマップのまま処理されている。

追記2:
類似の例で、テキストとして認識されているものを示す。

これは、Previewで表示して文字選択した場合。画像ではなくテキストになっているので、部分的に選択できる。