Я использую solr (7.3) для своих данных о продуктовых продуктах. Я нашел странные результаты из-за IDF данных на нескольких шардах (3 шарда).
Мое ключевое слово для поиска было "молоко"
Молоко - не совсем редкое ключевое слово в моей коллекции. Но в одном из фрагментов очень мало документов (1-2 документа из 9000), содержащих ключевое слово молоко. Таким образом, в этом осколке (shard1) показатель IDF очень высок, почти в 3 раза больше, чем у других осколков. Что влияет на мой результат. Я не ожидаю, что этот конкретный документ из shard1 будет лучшим результатом.
Есть ли способ контролировать скоринг idf, как мы можем сделать для tf в BM25 с параметрами k1 и b?
Или у нас BM25 без подобия idf? Я могу создать свое собственное сходство и использовать его, но наши сервисы solr не позволяют настраивать solr.
Или есть другой способ решить эту проблему?