BM25 против косинуса сходства - PullRequest
0 голосов
/ 08 июля 2019

Я знаю, что этот вопрос задавался ранее, но пока никто не дал четкого ответа. Мне действительно любопытно понять, почему Elasticsearch решил отказаться от косинуса и использовать BM25 в качестве алгоритма подобия по умолчанию.

До сих пор я понимал, что косинус основан на распределении документов, и не очень хорошая идея использовать его для запросов и документов. BM25 дает лучшую релевантность для коротких (или длинных) документов, чем косинус tf-idf.

Исходя из сказанного, мне до сих пор неясно, как эти алгоритмы различаются, поскольку они оба используют tf-idf, основанный на условиях запроса. Я понимаю, что размер документа повлияет на idf, но почему BM25 лучше?

Чем эти алгоритмы отличаются и каковы их преимущества / недостатки?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...