Программное обеспечение для улучшения результатов распознавания, основанное на выводе из нескольких пакетов программного обеспечения распознавания - PullRequest
1 голос
/ 17 июля 2010

Существует ли уже существующее коммерческое или академическое программное обеспечение, которое может

  • наложение результатов из нескольких пакетов OCR (Abbyy FineReader, Adobe Acrobat Professional, ReadIris и т. Д.)
  • обеспечивает полностью автоматизированные улучшения, основанные на накопленных знаниях из нескольких источников
  • позволяет использовать дополнительные внешние инструменты для настройки во время выполнения (словари, просмотр веб-сайтов / локальных корпусов и т. Д.)

Примечание : У меня уже есть собственные решения для визуализации результатов из одних источников, поэтому, если такого программного обеспечения не будет, я бы не стал разрабатывать свое собственное :) будьте добро пожаловать! скриншот http://corsis.sourceforge.net/img/so-ocr.png

Ответы [ 2 ]

0 голосов
/ 28 августа 2010

Есть два варианта, с которыми я работал ранее и рекомендую.

  1. PrimeOCR. http://www.primerecognition.com/

Это коммерческое предложение, которое использует несколько механизмов распознавания и голосования для определения наилучшего результата. Это только машинная печать. В прошлый раз, когда я использовал это, у них было 6 двигателей. Свяжитесь с Алексом Далем.

Я использовал его в крупном проекте, сканируя более 20 000 страниц в день.

  1. RecoStar от OpenText.

RecoStar использует голосование и может печатать отпечатки рук и машин.

0 голосов
/ 05 августа 2010

Идея использовать голосование между несколькими механизмами OCR не нова.Дело в том, что это на самом деле не работает.Что бы сработало, если бы они были простыми классификаторами, ортогональными по своей природе, тогда вы бы объединили их голоса и улучшили результаты.Но все они являются очень сложным программным обеспечением, использующим довольно похожий набор известных подходов с небольшими отклонениями, но, вероятно, объединяют их по-разному, и некоторые реализации лучше, а некоторые хуже.

Опыт показывает, что при объединении несколькихТехнологии оптического распознавания символов. Лучшее правило принятия решений - полагаться на результаты наиболее точных и просто использовать другие.Исходя из моего опыта (я работаю в ABBYY), ABBYY OCR определенно является наиболее точным из упомянутых вами.

Насколько я знаю, единственная причина использовать голосование - это когда вы хотите провести перекрестную проверку "подозрительно"символов и отправьте их на проверку вручную, если требуется 100% точность.Используя этот подход, вы увеличиваете количество проверяемых символов, но уменьшаете возможность пропустить неправильный символ.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...