Предположим, что у нас есть эти два документа:
d_1: "Tf is dependent on term and document"
d_2: "IDF is just dependent on the term"
Количество терминов в каждом документе выглядит следующим образом:
d_1:
{Tf: 1, is: 1, dependent: 1, on: 1, term: 1, and: 1, document: 1}
d_2:
{IDF: 1, is: 1, just: 1, dependent: 1, on: 1, the: 1, term: 1}
Частоты термина (т. Е. Отношение времени появления этого термина t в документе d к общему количеству терминов этого документа) для термина "on" составляют:
tf(on, d_1) = 1 / 7
tf(on, d_2) = 1 / 7
Для расчета частоты использования термина вы должны указать, о каком документе вы говорите. tf (on, d_1) = 1/7 говорит вам, что 1/7 всех слов в d_1 "включено".
Частота обратных документов (логарифм отношения документов, включающих слово «вкл.»):
idf(on) = log(2/2) = 0
Как видите, idf постоянен для всех документов в этом корпусе из двух документов. Это просто мера того, насколько часто термин используется в наборе документов. idf (on) = 0 говорит вам, что «on» вообще не является особенным и встречается во всех документах.