Чем косинусное сходство отличается от Okapi BM25? - PullRequest
1 голос
/ 15 марта 2019

Я провожу исследование, используя эластичный поиск.Я планировал использовать косинусное сходство, но я заметил, что оно недоступно, и вместо этого у нас есть BM25 в качестве функции оценки по умолчанию.

Есть ли причина для этого?Не подходит ли косинусное сходство для запроса документов?Почему BM25 был выбран по умолчанию?Спасибо

1 Ответ

1 голос
/ 15 марта 2019

Долгосрочный эластичный поиск использует алгоритм TF / IDF, чтобы найти сходство в запросах.Но номер версии назад изменен на BM25 как более эффективный.Вы можете прочитать информацию в документации . И хорошая статья объясняет, что такое упругий поиск и как сходство в ES .

Вы также можете написать собственный алгоритм вasticsearch. Вот хорошая статья о том, как сделать .

...