BM25 использует координатор запросов? - PullRequest
0 голосов
/ 09 июня 2018

В практической функции оценки Lucene есть координатор запросов, который наказывает документы, которые не соответствуют всем условиям запроса.Okapi BM25 использует тот же трюк?

Мне интересно, почему я использую Elasticsearch с модулем подобия BM25, и иногда мне кажется, что этот алгоритм не поддерживает документы с большим количеством совпадений.Есть случаи, когда документ содержит одно или два термина много, превосходит документ, содержащий все условия запроса.

1 Ответ

0 голосов
/ 10 июня 2018

Да и нет.

Нет, он не использует коэффициент координат, как описано в предыдущем сходстве с Lucene по умолчанию (примечание: ядро ​​Lucene теперь также использует BM25 по умолчанию).

Да, он взвешивает попадания по большему количеству условий запроса в большей степени, чем набор совпадений по одному и тому же термину.Это достигается за счет лучшего насыщения терминов, что делает старый коэффициент координат эффективно устаревшим.

Однако всегда возможно, что многие совпадения с меньшим числом терминов будут превосходить несколько совпадений с большим количеством терминов с использованием любого из этих алгоритмов.

...