Я ищу (желательно Java) библиотеку или инструмент командной строки для извлечения координат слов из PDF-файлов. Входные PDF-файлы содержат текст или изображения с ocr-текстом позади.
Мой вариант использования:
В веб-приложении на Java я хотел бы использовать это для выделения хитов и представления без дополнительного программного обеспечения (например, Adobe Reader и т. Д.). Вместо этого я хочу преобразовать соответствующие страницы в изображения и представить их на веб-странице.