инструментарий и методы для извлечения текстовых границ в «доступном для поиска pdf» - PullRequest
0 голосов
/ 24 февраля 2009

У меня есть «PDF-файл с возможностью поиска», также известный как «файлы изображений с невидимым, но выбираемым текстом». (Когда этот файл открывается в Acrobat, меня предупреждает «Вы просматриваете этот документ в режиме PDF / A».)

Мне нужно извлечь ограничивающий прямоугольник каждого слова в этом документе. Какие-либо предлагаемые наборы инструментов и методы для доступа к ограничивающим рамкам слов «invisi-text»?

Я бы предпочел инструменты в Java, но буду благодарен за любые предложения.

Ответы [ 3 ]

0 голосов
/ 24 февраля 2009

Библиотеки JavaScript Acrobat выглядят наиболее простыми, особенно:

getPageNthWordQuads

, который работает с "доступным для поиска pdf".

Было бы неплохо, если бы библиотека javascript acrobat была доступна как вызовы java ...

0 голосов
/ 26 февраля 2009

PdfBox и JPedal также предлагают методы извлечения текста.

0 голосов
/ 24 февраля 2009

Проверьте библиотеку iText: http://www.lowagie.com/iText/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...