Может кто-нибудь предложить мне метод, с помощью которого файл chm может быть проиндексирован, например pdfbox для pdf.
Если у вас есть и другие форматы документов, которые нужно проиндексировать, вы можете найти лучшее и более общее решение в Apache Tika
Недавно они добавили парсер CHM (для справки: Поддержка формата CHM ), и он будет в следующей версии.
Если вы говорите о файлах скомпилированной справки Microsoft , вы можете просто извлечь из них текст с помощью JChm и затем проиндексировать его обычным способом.