Взвешивание токенов, сгенерированных из Lucene - PullRequest
0 голосов
/ 05 августа 2011

Мне нужен подходящий алгоритм взвешивания, чтобы вернуть наиболее релевантные токены для запроса ... Я сгенерировал токены с помощью Lucene 3.0 ..., подумав об использовании концепции tf-idf? Может кто-нибудь предложить лучший алгоритм или модифицированный tf-idf?

1 Ответ

0 голосов
/ 09 августа 2011

Lucene уже реализует вариант TF-IDF для взвешивания.См .: http://lucene.apache.org/java/2_9_0/api/core/org/apache/lucene/search/Similarity.html

Однако взвешивание больше не является современным, и ему не хватает некоторых характеристик при посылках.Есть попытки ввести подключаемые алгоритмы в Solr 4.0, насколько я в курсе.Для некоторых версий доступны исправления для bm25 или некоторые из более новых алгоритмов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...