Question

Я знаю, что этот вопрос задавался ранее, но пока никто не дал четкого ответа. Мне действительно любопытно понять, почему Elasticsearch решил отказаться от косинуса и использовать BM25 в качестве алгоритма подобия по умолчанию.

До сих пор я понимал, что косинус основан на распределении документов, и не очень хорошая идея использовать его для запросов и документов. BM25 дает лучшую релевантность для коротких (или длинных) документов, чем косинус tf-idf.

Исходя из сказанного, мне до сих пор неясно, как эти алгоритмы различаются, поскольку они оба используют tf-idf, основанный на условиях запроса. Я понимаю, что размер документа повлияет на idf, но почему BM25 лучше?

Чем эти алгоритмы отличаются и каковы их преимущества / недостатки?

BM25 против косинуса сходства

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

BM25 против косинуса сходства

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы