Question

Я понимаю, что частота терминов по умолчанию (tf) просто рассчитывается как квадрат числа раз, когда конкретный искомый термин появляется в поле.Таким образом, документы, содержащие несколько вхождений термина, по которому вы ведете поиск, будут иметь более высокое значение tf и, следовательно, вес.

В чем я не уверен, так это в том, поможет ли это увеличить оценку документов, поскольку весбольше или уменьшает баллов документов, потому что он перемещает вектор документа от вектора запроса, как кажется, говорит книга «Поиск в спящем режиме» (стр. 363).Признаюсь, я действительно изо всех сил пытаюсь увидеть, как векторная модель документа согласуется с уравнением оценки люцены

jpountz · Answer 1 · 08 марта 2012

У меня нет этой книги для проверки, но в основном (если мы игнорируем различные повышения, которые можно установить вручную во время индексации), есть три причины, по которым оценка какого-либо документа может быть выше (или ниже) оценка других документов с использованием модели оценки по умолчанию Lucene и для данного запроса:

запрашиваемый термин имеет низкую частоту документа (увеличение части IDF партитуры),
запрашиваемый термин имеет большое количество вхождений в документе (увеличение части оценки TF ),
запрашиваемый термин появляется в довольно небольшом поле документа (увеличивая норма часть партитуры).

Это означает, что для двух документов D1 и D2 и одного запрашиваемого термина T, если

T появляется n раз в D1,
T появляется p> n раз в D2,
запрашиваемое поле D2 имеет (почти) тот же размер (число членов), что и D1,

У D2 будет лучший результат, чем у D1.

Всегда ли больший tf всегда повышает оценку документов в Lucene?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Всегда ли больший tf всегда повышает оценку документов в Lucene?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы