будут ли те же самые коллекции документов возвращать документы TopN, используя TopScoreCollector, если время от времени изменяется сегмент - PullRequest
0 голосов
/ 05 июня 2019

Я пытаюсь перенести мою программу из поиска на основе lucene в Elasticsearch, и я помещаю ту же коллекцию документов в lucene и Elasticsearch, чтобы выполнить сравнительный тест.в ES я использовал только один шард и сопоставление изменений для сходства каждого поля с классическим.но все же я получил другие результаты, когда я использую общедоступный поиск TopDocs (Query query, int n), чтобы получить N документов с наибольшим количеством очков.когда N мало, результаты получаются на основе люцена и ES имеет различия, в то время как когда N все больше и больше, диффузия уменьшается.поэтому я хотел бы знать, что является причиной этого различия и как я могу добиться отсутствия различий.

ниже - мое предположение о проблеме:

, поскольку TopScoreCollector возвращает topN документы, в то время как оценка рассчитывается на основесегмент.таким образом, если N документов будут разделены на различное количество сегментов, на результат повлияет изменение tf / idf.это мое общее понимание, и я хотел бы знать, правильно ли я понимаю или нет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...