Как извлечь встроенные данные OCR из PDF? - PullRequest
2 голосов
/ 02 марта 2011

У меня есть PDF-файлы со встроенными данными OCR.(Так что я уже Orcd их) Таким образом, они доступны для поиска.Теперь я хочу извлечь эти данные OCR, потому что я хочу вставить их в свой поисковый сервер tomcat6.Для этого мне нужны простые данные OCR.Итак, мой вопрос, возможно ли извлечь эти встроенные OCR-данные из PDF-файлов?Было бы неплохо получить файлы с координатами.Но этого также было бы достаточно, чтобы получить текстовые файлы.

1 Ответ

0 голосов
/ 02 марта 2011

Вы должны быть в состоянии сделать это с помощью iText или iTextsharp. Однако у iTextsharp есть 0 документов, и большое количество функций не эквивалентно тем, которые есть в iText.

PDFSharp не поддерживает потоки iref. Это практически единственные комплексные решения с открытым исходным кодом. Если вы не возражаете платить, решения Vista могут иметь что-то для вас, они в основном обрабатывают рабочий процесс, но у них также есть довольно обширные библиотеки PDF.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...