Question

Существует ли библиотека (или исполняемый файл), которая может распознавать PDF (обычно PDF, созданный путем сканирования бумаги) и вставлять распознанный текст обратно в PDF?Вероятно, как невидимый текст за отсканированными изображениями.

Предпочтительно с открытым исходным кодом.

(Цель: у меня есть огромная библиотека файлов PDF, проиндексированных Lucene. Для Lucene было бы намного проще найти то, чтоPDF-файлы актуальны, если PDF-файлы содержат текст.)

maneo · Answer 1 · 17 января 2013

Если PDF-файлы не содержат текста, что индексируется Lucene?

Взгляните на Docsplitt (https://github.com/documentcloud/docsplit), он может использовать Tesseract для выполнения распознавания текста. Вы получите текстовые файлы, которые отражают содержимое PDF-файлов. Вы можете построить свой индекс Lucene поверх этого текста файлы и сохраните ссылку на PDF в индексе Lucene. После запроса индекса Lucene вы получите список документов со ссылками на оригинальные файлы PDF.

Andrew Cash · Answer 2 · 27 апреля 2012

Один из лучших вариантов - это, вероятно, использовать Abbyy FineReader, поскольку он предоставит вам множество возможностей, включая создание скрытого текста. www.abbyy.com Я быстро взглянул на их сайт, а также наткнулся на их продукт Transformer, который, вероятно, даже больше подходит для ваших нужд.

http://www.abbyy.com.au/pdftransformer/product_features/

Библиотека OCR, которая может вставить текст OCR обратно в исходный PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Библиотека OCR, которая может вставить текст OCR обратно в исходный PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы