помогите с объяснением bm25.Редкие слова в небольшом указателе / ​​общие слова в небольшом указателе - PullRequest
0 голосов
/ 18 августа 2011

Мне нужна небольшая помощь в понимании ранжирования релевантности bm25 (я использую sphinx). При наличии небольшого индекса (скажем, очень маленького), это негативно влияет на релевантность общих слов, встречающихся в документе часто? Допустим, у вас есть всего 4 статьи в индексе (очень маленькие, да) .... под названием: "Норвегия", "акции Канады снова восстановятся", "Канада", "Вьетнам". Указанные поля являются заголовком и телом. Допустим, запрос: "Канада". В основном, «Канада» появляется много (в порядке убывания) ... я. "Канада" II. «акции Канады снова восстановятся» iii. «Норвегия» (это делает в этой статье). Не учитывает ли bm25 частоту слов? Я читаю те слова, которые очень часто встречаются в указателе, и документ фактически снижает рейтинг. Между прочим, когда я ищу в sphinx с помощью бесконтактной_бм25 ..... "акции Канады снова возвращаются" оценивается немного выше, чем "Канада" .... любопытно: p

1 Ответ

0 голосов
/ 18 августа 2011

Существует некоторая конкретная информация о реализации BM25 в Sphinx на их блоге .Обратите внимание, что это объяснение начинается «BM25 ... зависит от частот только совпадающих ключевых слов». Сама мера в основном основана на TF (термин-частота) и IDF (обратная частота документа);т.е. частота термина во всем корпусе и (обратное) число документов, содержащих этот термин.Формулы приведены в ссылочной ссылке.

...