tf-idf: помогает ли это использовать для взвешивания документов, которые имеют более высокие термины, чем документы, которые не имеют? - PullRequest
1 голос
/ 04 октября 2010

Я работаю над индивидуальной функцией поиска для веб-сайта.и мне было бы любопытно, если бы использование только tf-idf для ранжирования документов в моем корпусе также помогало бы взвешивать документы, которые имеют несколько поисковых запросов выше, чем документы только с одним поисковым термином.«Теоретически, будет ли вышеупомянутый запрос весить (используя традиционный tf-idf) документ выше, если документ содержал« польшу »100 раз и« воду »ноль раз.Или он будет весить документ тяжелее, если он будет содержать «польшу» в 10 раз и «воду» в 10 раз.

Я знаю, что все зависит от значения tf-idf для «Польши» и «воды»но теоретически на ровном игровом поле, поможет ли алгоритм довести документы до вершины результатов больше, если в документе было несколько терминов, или он действительно независим?

Ответы [ 2 ]

1 голос
/ 12 мая 2011

Термин не зависит. Помните, что схема взвешивания tf-idf обрабатывает запрос как пакет слов, а каждый документ рассматривается как вектор. Для приведенного выше примера рассмотрим tf для Польши, в то время как его IDF равен 1 в документе х. Кроме того, tf для Польши равно 10, а tf для воды равно 2. idf воды равен 1.

оценка доктора х = 100 оценка документа у = 12

Док x занял более высокое место, хотя имеет один термин.

0 голосов
/ 18 августа 2016

срок его независимости.Зависит от того, сколько документов содержат польшу и сколько воды.это то соотношение.Если его половина, то выигрывает второй документ.Если соотношение равно 100: 1, то выигрывает первый документ, поскольку это соотношение больше похоже на распределение слов в документе.

...