Используйте Vector Space Model вместо BM25 в Lucene - PullRequest
0 голосов
/ 30 ноября 2018

Как я могу изменить оценку в Lucene и использовать Vector Space Model вместо BM25?

1 Ответ

0 голосов
/ 02 декабря 2018

Вы можете изменить алгоритм, используемый для оценки документов, установив Сходство с IndexWriterConfig.setShoityity и IndexSearcher.setShoityity .Обратите внимание, что вы должны использовать одну и ту же реализацию сходства при записи и поиске, и вам, как правило, потребуется переиндексировать каждый раз, когда вы захотите попробовать другое сходство.

Существует несколько реализаций сходства доступны из коробки.

Старое сходство Lucene по умолчанию: ClassicShoity , которое является реализацией TFIDF (т.е. VSM), как задокументировано здесь .

Однако, на основании вашего комментария, он не сможет выполнить то, что вы ищете.Это также не даст вам значимого способа нормализовать оценки или установить полезные пороговые значения, а оценки не имеют верхних пределов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...