Всегда ли больший tf всегда повышает оценку документов в Lucene? - PullRequest
1 голос
/ 08 марта 2012

Я понимаю, что частота терминов по умолчанию (tf) просто рассчитывается как квадрат числа раз, когда конкретный искомый термин появляется в поле.Таким образом, документы, содержащие несколько вхождений термина, по которому вы ведете поиск, будут иметь более высокое значение tf и, следовательно, вес.

В чем я не уверен, так это в том, поможет ли это увеличить оценку документов, поскольку весбольше или уменьшает баллов документов, потому что он перемещает вектор документа от вектора запроса, как кажется, говорит книга «Поиск в спящем режиме» (стр. 363).Признаюсь, я действительно изо всех сил пытаюсь увидеть, как векторная модель документа согласуется с уравнением оценки люцены

1 Ответ

1 голос
/ 08 марта 2012

У меня нет этой книги для проверки, но в основном (если мы игнорируем различные повышения, которые можно установить вручную во время индексации), есть три причины, по которым оценка какого-либо документа может быть выше (или ниже) оценка других документов с использованием модели оценки по умолчанию Lucene и для данного запроса:

  • запрашиваемый термин имеет низкую частоту документа (увеличение части IDF партитуры),
  • запрашиваемый термин имеет большое количество вхождений в документе (увеличение части оценки TF ),
  • запрашиваемый термин появляется в довольно небольшом поле документа (увеличивая норма часть партитуры).

Это означает, что для двух документов D1 и D2 и одного запрашиваемого термина T, если

  • T появляется n раз в D1,
  • T появляется p> n раз в D2,
  • запрашиваемое поле D2 имеет (почти) тот же размер (число членов), что и D1,

У D2 будет лучший результат, чем у D1.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...