Как извлечь текст из изображения PDF - PullRequest
0 голосов
/ 13 мая 2018

Я хотел извлечь данные из PDF, в котором есть изображение, а изображение - это форма, где буква будет находиться внутри маленьких прямоугольников, например, name : t e s t, здесь каждое слово будет внутри квадратного прямоугольника.

Я пробовал тессеракт OCR не смог получить желаемый результат.

Я пробовал коммерческий ABBYY работал, но я хотел использовать бесплатный API на основе Java.

ниже приведен пример enter image description here

Ответы [ 3 ]

0 голосов
/ 14 мая 2018

Я не уверен насчет бесплатных, но вы определенно можете попробовать TotalPDFConverterOCR

Он имеет широкий спектр возможностей, таких как преобразование в документы, изображения и т. Д.

0 голосов
/ 08 июня 2018

Nicomsoft OCR SDK, который является бесплатным SDK, извлек текст из моего PDF, и результаты удовлетворительные

он поддерживает действительно большие технологии, сейчас я пытаюсь интегрировать его в свое приложение

Ссылка https://www.nicomsoft.com/

0 голосов
/ 13 мая 2018

Что касается бесплатного распознавания текста, Tesseract также хорош, как и он.

В качестве альтернативы вы можете взглянуть на Windows 10 UWP OCR, предлагающее .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...