Question

У меня есть PDF-файлы со встроенными данными OCR.(Так что я уже Orcd их) Таким образом, они доступны для поиска.Теперь я хочу извлечь эти данные OCR, потому что я хочу вставить их в свой поисковый сервер tomcat6.Для этого мне нужны простые данные OCR.Итак, мой вопрос, возможно ли извлечь эти встроенные OCR-данные из PDF-файлов?Было бы неплохо получить файлы с координатами.Но этого также было бы достаточно, чтобы получить текстовые файлы.

david · Answer 1 · 02 марта 2011

Вы должны быть в состоянии сделать это с помощью iText или iTextsharp. Однако у iTextsharp есть 0 документов, и большое количество функций не эквивалентно тем, которые есть в iText.

PDFSharp не поддерживает потоки iref. Это практически единственные комплексные решения с открытым исходным кодом. Если вы не возражаете платить, решения Vista могут иметь что-то для вас, они в основном обрабатывают рабочий процесс, но у них также есть довольно обширные библиотеки PDF.

Как извлечь встроенные данные OCR из PDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь встроенные данные OCR из PDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы