Повышение точности распознавания отсканированных документов - PullRequest
1 голос
/ 11 января 2011

Я сканирую много документов формата A3, используя стандартную многофункциональную систему Brother A3, а затем использую FineReader Pro для распознавания изображений.

Однако я получаю много ошибок в распознаваемых символах и множество не буквенно-цифровых странных символов.

Может ли кто-нибудь дать мне какие-либо советы по программному повышению точности распознавания текста, либо предварительной обработке отсканированных изображений, либо последующей обработке распознанного текста?* Найти образец PDF .Он включает несколько примеров изображений, из которых я получаю самые плохие результаты.

1 Ответ

2 голосов
/ 12 января 2011

У вас есть образец изображения, который вы можете опубликовать где-нибудь, чтобы мы могли быстро рассказать вам, что вызывает большинство ваших проблем. FineReader - один из лучших механизмов распознавания, поэтому есть определенные причины, по которым вы получаете плохие результаты.

Это может быть связано с плохими настройками контрастности и пороговых значений, перекосом изображения, грязными роликами в сканере, сложным и цветным фоном, размытым фоном, слишком маленьким размером шрифта, слишком низким разрешением при сканировании и т. Д. ...

После просмотра прикрепленного изображения возникает несколько небольших проблем.

  1. На фоновой странице много грязных пятен. FineReader, кажется, делает разумную работу с этим на ваших изображениях.
  2. Есть небольшой перекос, но это не вызывает и проблем.
  3. FineReader перепутан с жирным шрифтом Arial, используемым для заголовков столбцов.
    4 Большой проблемой является нижняя область страниц, где контрастность плохая, а изображение размытое. Это кажется проблемой со сканером, но может быть связано с проблемами печати. ​​

Печать довольно скудная, и я предполагаю, что это отсканированное изображение из газеты. Большинство ваших ошибок связано с проблемами сканирования, поэтому было бы сложно программно улучшить результаты.

Во-первых, я попытался бы отсканировать изображение в оттенках серого, используя немного более высокое разрешение, и посмотреть, поможет ли это. FineReader хорошо работает с изображениями в оттенках серого. Если вам нужно черно-белое изображение, посмотрите, есть ли в драйвере сканера параметр динамической настройки порога, и включите его.

Ваши изображения не будут легкой задачей для любого механизма распознавания. Вы получите лучшие результаты, если сможете улучшить сканирование. На странице 3 много шума в правом нижнем углу.

Какую версию FineReasder вы используете? FR10, вероятно, даст лучшие результаты, чем предыдущие версии.

...