Я сравниваю Lucene / Solr, Whoosh, Sphinx и Xapian для поиска документов в DOC, DOCX, HTML и PDF. Только Solr документирован, чтобы иметь анализатор документов (Tika), который непосредственно индексирует документы. Так что, похоже, явный победитель.
Но чтобы выровнять игровое поле, мне нравится рассматривать альтернативы. Есть ли у других прямая индексация документов (которые я, возможно, пропустил)? Если нет, то могут ли они быть легко реализованы? Или Solr - огромный выбор?