Библиотека / Инструмент для извлечения координат слов из PDF - PullRequest
1 голос
/ 06 декабря 2010

Я ищу (желательно Java) библиотеку или инструмент командной строки для извлечения координат слов из PDF-файлов. Входные PDF-файлы содержат текст или изображения с ocr-текстом позади.

Мой вариант использования:
В веб-приложении на Java я хотел бы использовать это для выделения хитов и представления без дополнительного программного обеспечения (например, Adobe Reader и т. Д.). Вместо этого я хочу преобразовать соответствующие страницы в изображения и представить их на веб-странице.

Ответы [ 2 ]

0 голосов
/ 06 декабря 2010

Вы можете использовать JPedal для генерации миниатюр (http://www.jpedal.org/pdf_thumbnail_tutorials.php) и извлечения текста (http://www.jpedal.org/support_egETAW.php)

).
0 голосов
/ 06 декабря 2010

Вы должны быть в состоянии использовать http://pdfbox.apache.org/, чтобы выделить и представить их в формате PDF.Также посмотрите на http://itextpdf.com/.

...