Ползать в PDF - PullRequest
       28

Ползать в PDF

0 голосов
/ 18 мая 2010

Я разрабатываю инструмент, который ищет ключевое слово, введенное пользователем на данном сайте. Моя проблема в том, что он ищет ключевое слово только на html / веб-страницах, но не в файлах PDF / MS-Word, найденных на сайте.

Может кто-нибудь предложить мне какой-нибудь API / инструмент или предоставить код, который может искать текст из указанного онлайн PDF / MS-Word / текстового файла?

Ответы [ 2 ]

0 голосов
/ 18 мая 2010

Разрабатывая все, что работает на JVM, вам лучше всего использовать POI для разбора документов MS Office и PDFBox , JPedal или PDF Clown для парсинг .pdfs.

Для общего индексирования вы не пропустите lucene и nutch .

0 голосов
/ 18 мая 2010

Возможно, вы могли бы использовать Antiword для файлов слов.

pdftotext можно использовать для pdf-файлов.

Обе команды доступны через apt: sudo apt-get install xpdf-utils antiword

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...