Библиотека OCR, которая может вставить текст OCR обратно в исходный PDF - PullRequest
2 голосов
/ 28 февраля 2011

Существует ли библиотека (или исполняемый файл), которая может распознавать PDF (обычно PDF, созданный путем сканирования бумаги) и вставлять распознанный текст обратно в PDF?Вероятно, как невидимый текст за отсканированными изображениями.

Предпочтительно с открытым исходным кодом.

(Цель: у меня есть огромная библиотека файлов PDF, проиндексированных Lucene. Для Lucene было бы намного проще найти то, чтоPDF-файлы актуальны, если PDF-файлы содержат текст.)

Ответы [ 2 ]

0 голосов
/ 17 января 2013

Если PDF-файлы не содержат текста, что индексируется Lucene?

Взгляните на Docsplitt (https://github.com/documentcloud/docsplit), он может использовать Tesseract для выполнения распознавания текста. Вы получите текстовые файлы, которые отражают содержимое PDF-файлов. Вы можете построить свой индекс Lucene поверх этого текста файлы и сохраните ссылку на PDF в индексе Lucene. После запроса индекса Lucene вы получите список документов со ссылками на оригинальные файлы PDF.

0 голосов
/ 27 апреля 2012

Один из лучших вариантов - это, вероятно, использовать Abbyy FineReader, поскольку он предоставит вам множество возможностей, включая создание скрытого текста. www.abbyy.com Я быстро взглянул на их сайт, а также наткнулся на их продукт Transformer, который, вероятно, даже больше подходит для ваших нужд.

http://www.abbyy.com.au/pdftransformer/product_features/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...