Как использовать tfidf в классификации текста? - PullRequest
0 голосов
/ 24 января 2019

У меня есть набор данных, который имеет 300000 строк, каждая строка которых является заголовком статьи, я хочу найти такие функции, как tf или tfidf этого набора данных.Я могу сосчитать слова (tf) в этом наборе данных, такие как:
ЧАСТОТА СЛОВА
must 10000
amazing 9999

или word percentage:
must 0.2
amazing 0.19

но как рассчитать idf, я имею в виду, мне нужно найти некоторые функции, чтобы отличить этот набор данных от других?или КАК tfidf используется в текстовой классификации?

1 Ответ

0 голосов
/ 24 января 2019

В вашем случае документ представляет собой одно название статьи.Следовательно, обратная частота документов (IDF) составляет log(300000/num(t)).Где num(t) - количество документов (заголовков статей), содержащих термин t.

См. https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Inverse_document_frequency_2

...