Tf-idf: правильный ли это подход? - PullRequest
3 голосов
/ 22 августа 2009

Я хотел бы рассчитать частоту с помощью tf-idf. Я составил уравнение, в котором вы должны получить значение tf-idf с левой стороны. Это правильно?

Tf-idf для DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT): количество вхождений WORD в DOCUMENT
  • number-of-words(DOCUMENT): количество слов в DOCUMENT
  • documents(ALL): количество документов в базе данных
  • documents(WORD, ALL): количество документов в базе данных, которые содержат WORD

Было бы здорово, если бы вы могли мне помочь. Заранее большое спасибо!

1 Ответ

1 голос
/ 22 августа 2009

Согласно статье в википедии это правильно, вы можете захотеть изменить на 1 + документы (WORD, ALL) вместо просто документов (WORD, ALL), как предполагает статья в википедии.

TF-IDF в Википедии

...