Поиск документов в Lucene / Solr, Whoosh, Sphinx, Xapian - PullRequest
1 голос
/ 17 июля 2011

Я сравниваю Lucene / Solr, Whoosh, Sphinx и Xapian для поиска документов в DOC, DOCX, HTML и PDF. Только Solr документирован, чтобы иметь анализатор документов (Tika), который непосредственно индексирует документы. Так что, похоже, явный победитель.

Но чтобы выровнять игровое поле, мне нравится рассматривать альтернативы. Есть ли у других прямая индексация документов (которые я, возможно, пропустил)? Если нет, то могут ли они быть легко реализованы? Или Solr - огромный выбор?

1 Ответ

0 голосов
/ 12 апреля 2013

В Sphinx вы можете конвертировать файл с помощью PHP-скрипта с помощью опции xmlpipe_command.Поскольку в PHP есть Tika-оболочка, написание сценария и самой установки не составляет труда.

...