Чем IDF может отличаться для нескольких документов? - PullRequest
1 голос
/ 27 января 2011

Я использую LETOR для создания информационно-поисковой системы. Они используют TF и ​​IDF. Я уверен, что TF зависит от запроса. Но ЦАХАЛ должен быть, но:

"Обратите внимание, что IDF не зависит от документа, поэтому все документы в запросе имеют одинаковые значения IDF. "

Но это не имеет смысла, потому что IDF является частью списка возможностей. Как будет рассчитываться IDF для каждого документа?

Ответы [ 2 ]

5 голосов
/ 01 февраля 2011

IDF является конкретным термином. IDF любого данного термина не зависит от документа, но TF зависит от конкретного документа.

Чтобы сказать это по-другому. Допустим, у нас есть 3 документа.

ID документа 1 «Быстрая коричневая лиса перепрыгивает через ленивую собаку»

ID документа 2 «Паб Sly Fox в Аннаполисе расположен на церковном кружке»

ID документа 3 "Расположен на Церковном Круге, в самом сердце Исторического Района"

Теперь, если IDF равен (количество документов) / (количество документов, содержащих термин t) тогда IDF для термина fox равен 3/2 независимо от того, что является поиском или что это за документ. Таким образом, IDF является функцией t.

С другой стороны, TF - функция t и d. Таким образом, TF для the doc id 1 равен 2.

4 голосов
/ 02 февраля 2011

Чтобы добавить к тому, что сказал Джшен:

IDF - это показатель того, насколько часто встречается конкретное слово или грамм в данном корпусе, который вы ищете. Это оценка редкости этого слова и, следовательно, его вероятной важности. Таким образом, если запрос содержит редкое слово, документы, содержащие это редкое слово, должны рассматриваться как более важные.

...