Question

Я пытаюсь перенести мою программу из поиска на основе lucene в Elasticsearch, и я помещаю ту же коллекцию документов в lucene и Elasticsearch, чтобы выполнить сравнительный тест.в ES я использовал только один шард и сопоставление изменений для сходства каждого поля с классическим.но все же я получил другие результаты, когда я использую общедоступный поиск TopDocs (Query query, int n), чтобы получить N документов с наибольшим количеством очков.когда N мало, результаты получаются на основе люцена и ES имеет различия, в то время как когда N все больше и больше, диффузия уменьшается.поэтому я хотел бы знать, что является причиной этого различия и как я могу добиться отсутствия различий.

ниже - мое предположение о проблеме:

, поскольку TopScoreCollector возвращает topN документы, в то время как оценка рассчитывается на основесегмент.таким образом, если N документов будут разделены на различное количество сегментов, на результат повлияет изменение tf / idf.это мое общее понимание, и я хотел бы знать, правильно ли я понимаю или нет.

будут ли те же самые коллекции документов возвращать документы TopN, используя TopScoreCollector, если время от времени изменяется сегмент

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

будут ли те же самые коллекции документов возвращать документы TopN, используя TopScoreCollector, если время от времени изменяется сегмент

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов