Для индексации полноформатных документов вам понадобится комбинация Apache Lucene и Apache Tika .
Если вы используете lucene, вам нужно будет проанализировать файлы с помощью библиотек Tika и передать содержимое в lucene для индексации.
Apache Tika позволяет легко извлекать apis-файлы, выполняя работу по обнаружению типов файлов и получению содержимого и других атрибутов из файлов.
Вы должны найти пример на них.