Я хочу написать программное обеспечение для поиска на моем жестком диске файлов PDF и индексирования их в библиотеке путем анализа содержимого.
Пожалуйста, помогите мне, как добиться этого с помощью платформы Java.
Вы должны взглянуть на Lucene , это НАИБОЛЕЕ инфраструктура индексирования и поиска в Java.
Для индексирования документов PDF вы можете использовать PDFBox , который прекрасно интегрируется сLucene.
Может быть более простым решением для PDF и других файлов документов, посмотрите Tika .
Этот проект с открытым исходным кодом может быть началом для вас. Он использует Apache Lucene и PDFBox: