OCR в окне x, y файла PDF - PullRequest
       10

OCR в окне x, y файла PDF

2 голосов
/ 08 января 2011

Мне нужно найти утилиту с открытым исходным кодом или Linux, которая позволяет мне устанавливать координаты x, y в установочном файле.Затем я хотел бы последовательно открыть PDF-файлы, посмотреть в документах имя, фамилию и номер счета и сохранить файл с именем файла, состоящим из фамилии и номера файла.

1 Ответ

2 голосов
/ 08 января 2011

Сначала вы можете прочитать некоторые из этих ответов:

Ответы выше не зависят от Linux.

Большинство документов PDF не нужно распознавать, поскольку текст содержится в PDF.Сложная часть извлекается. Java-версия iText (http://itextpdf.com/), вероятно, является лучшим инструментарием под Linux для извлечения текстовых строк PDF. Другой вариант может быть http://pdfbox.apache.org/

Если текстна самом деле нужно извлечь изображение, тогда вам, вероятно, потребуется преобразовать всю страницу PDF в формат изображения, такой как TIFF, и передать его в механизм распознавания текста, такой как Google Tesseract OCR.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...