Я хотел бы рассчитать частоту с помощью tf-idf. Я составил уравнение, в котором вы должны получить значение tf-idf с левой стороны. Это правильно?
Tf-idf для DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)
: количество вхождений WORD
в DOCUMENT
number-of-words(DOCUMENT)
: количество слов в DOCUMENT
documents(ALL)
: количество документов в базе данных
documents(WORD, ALL)
: количество документов в базе данных, которые содержат WORD
Было бы здорово, если бы вы могли мне помочь. Заранее большое спасибо!