Есть ли способ индексировать файлы CHM в Lucene? - PullRequest
4 голосов
/ 10 июня 2011

Может кто-нибудь предложить мне метод, с помощью которого файл chm может быть проиндексирован, например pdfbox для pdf.

Ответы [ 2 ]

3 голосов
/ 10 июня 2011

Если у вас есть и другие форматы документов, которые нужно проиндексировать, вы можете найти лучшее и более общее решение в Apache Tika

Недавно они добавили парсер CHM (для справки: Поддержка формата CHM ), и он будет в следующей версии.

3 голосов
/ 10 июня 2011

Если вы говорите о файлах скомпилированной справки Microsoft , вы можете просто извлечь из них текст с помощью JChm и затем проиндексировать его обычным способом.

...