Что значит «ИДФ просто зависит от термина»? - PullRequest
0 голосов
/ 15 января 2019

возможно, кто-то объяснит "Tf зависит от термина и документа" и "IDF просто зависит от термина" с примером?

1 Ответ

0 голосов
/ 15 января 2019

Предположим, что у нас есть эти два документа:

d_1: "Tf is dependent on term and document"
d_2: "IDF is just dependent on the term"

Количество терминов в каждом документе выглядит следующим образом:

d_1: 
{Tf: 1, is: 1, dependent: 1, on: 1, term: 1, and: 1, document: 1}
d_2:
{IDF: 1, is: 1, just: 1, dependent: 1, on: 1, the: 1, term: 1}

Частоты термина (т. Е. Отношение времени появления этого термина t в документе d к общему количеству терминов этого документа) для термина "on" составляют:

tf(on, d_1) = 1 / 7
tf(on, d_2) = 1 / 7

Для расчета частоты использования термина вы должны указать, о каком документе вы говорите. tf (on, d_1) = 1/7 говорит вам, что 1/7 всех слов в d_1 "включено".

Частота обратных документов (логарифм отношения документов, включающих слово «вкл.»):

idf(on) = log(2/2) = 0

Как видите, idf постоянен для всех документов в этом корпусе из двух документов. Это просто мера того, насколько часто термин используется в наборе документов. idf (on) = 0 говорит вам, что «on» вообще не является особенным и встречается во всех документах.

...