Я работаю над индивидуальной функцией поиска для веб-сайта.и мне было бы любопытно, если бы использование только tf-idf для ранжирования документов в моем корпусе также помогало бы взвешивать документы, которые имеют несколько поисковых запросов выше, чем документы только с одним поисковым термином.«Теоретически, будет ли вышеупомянутый запрос весить (используя традиционный tf-idf) документ выше, если документ содержал« польшу »100 раз и« воду »ноль раз.Или он будет весить документ тяжелее, если он будет содержать «польшу» в 10 раз и «воду» в 10 раз.
Я знаю, что все зависит от значения tf-idf для «Польши» и «воды»но теоретически на ровном игровом поле, поможет ли алгоритм довести документы до вершины результатов больше, если в документе было несколько терминов, или он действительно независим?