Как написать программное обеспечение для индексирования файлов в Java? - PullRequest
2 голосов
/ 15 февраля 2011

Я хочу написать программное обеспечение для поиска на моем жестком диске файлов PDF и индексирования их в библиотеке путем анализа содержимого.

Пожалуйста, помогите мне, как добиться этого с помощью платформы Java.

Ответы [ 3 ]

3 голосов
/ 15 февраля 2011

Вы должны взглянуть на Lucene , это НАИБОЛЕЕ инфраструктура индексирования и поиска в Java.

Для индексирования документов PDF вы можете использовать PDFBox , который прекрасно интегрируется сLucene.

1 голос
/ 15 февраля 2011

Может быть более простым решением для PDF и других файлов документов, посмотрите Tika .

0 голосов
/ 10 мая 2013

Этот проект с открытым исходным кодом может быть началом для вас. Он использует Apache Lucene и PDFBox:

...