Question

Я разрабатываю инструмент, который ищет ключевое слово, введенное пользователем на данном сайте. Моя проблема в том, что он ищет ключевое слово только на html / веб-страницах, но не в файлах PDF / MS-Word, найденных на сайте.

Может кто-нибудь предложить мне какой-нибудь API / инструмент или предоставить код, который может искать текст из указанного онлайн PDF / MS-Word / текстового файла?

Tomislav Nakic-Alfirevic · Answer 1 · 18 мая 2010

Разрабатывая все, что работает на JVM, вам лучше всего использовать POI для разбора документов MS Office и PDFBox , JPedal или PDF Clown для парсинг .pdfs.

Для общего индексирования вы не пропустите lucene и nutch .

aioobe · Answer 2 · 18 мая 2010

Возможно, вы могли бы использовать Antiword для файлов слов.

pdftotext можно использовать для pdf-файлов.

Обе команды доступны через apt: sudo apt-get install xpdf-utils antiword

Ползать в PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ползать в PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов