Извлечение и анализ конкретной информации о макете из механизма OCR - PullRequest
3 голосов
/ 03 декабря 2011

Я пытаюсь разобрать информацию о компоновке из механизмов OCR с PHP, за исключением того, что они не дают никаких подробностей.

У меня установлены и Tesseract (с Leptonica), и Cuneiform. Предположительно, Cuneiform отлично распознает макет (то есть, что такое текст, что такое изображение и т. Д.). Входные данные - это файлы PNG с текстом и изображениями (очевидно, текст является частью изображения.)

Кажется, все они думают, что я хочу вывод в виде txt, html или hocr ... когда мне нужны координаты того, что он считает текстом, а то, что он считает изображением.

У Cuneiform есть «нативная» опция вывода в формате Cuneiform 2000, открывающая его в Notepad ++. Я вижу, что он сжат. Я попытался извлечь его с помощью zip и gzip, но ни один из них не узнал. В Google нет информации о родном формате Cuneiform.

У кого-нибудь есть идеи, как извлечь информацию о разметке из Tesseract или Cuneiform ... или есть идеи получше, чтобы выяснить расположение изображений, содержащих текстовые блоки и картинки?

1 Ответ

3 голосов
/ 06 декабря 2011

Взгляните на ABBYY FineReader Engine .Он имеет очень умный API, который предоставляет максимум информации о распознанном тексте, включая его координаты.Это не бесплатно, но когда речь идет о программном обеспечении для бизнеса - технологии ABBYY OCR могут добавить серьезную ценность вашему продукту.

Поскольку вы работаете над веб-приложением на PHP, вы можете использовать веб-приложение ABBYY OCR Engine.API на www.ocrsdk.com .Сейчас он находится в закрытой бета-версии, поэтому сейчас его можно использовать бесплатно.

...