Question

Я ищу (желательно Java) библиотеку или инструмент командной строки для извлечения координат слов из PDF-файлов. Входные PDF-файлы содержат текст или изображения с ocr-текстом позади.

Мой вариант использования:
В веб-приложении на Java я хотел бы использовать это для выделения хитов и представления без дополнительного программного обеспечения (например, Adobe Reader и т. Д.). Вместо этого я хочу преобразовать соответствующие страницы в изображения и представить их на веб-странице.

mark stephens · Answer 1 · 06 декабря 2010

Вы можете использовать JPedal для генерации миниатюр (http://www.jpedal.org/pdf_thumbnail_tutorials.php) и извлечения текста (http://www.jpedal.org/support_egETAW.php)

).

Jinesh Parekh · Answer 2 · 06 декабря 2010

Вы должны быть в состоянии использовать http://pdfbox.apache.org/, чтобы выделить и представить их в формате PDF.Также посмотрите на http://itextpdf.com/.

Библиотека / Инструмент для извлечения координат слов из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Библиотека / Инструмент для извлечения координат слов из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы