У меня есть набор данных, который имеет 300000 строк, каждая строка которых является заголовком статьи, я хочу найти такие функции, как tf
или tfidf
этого набора данных.Я могу сосчитать слова (tf) в этом наборе данных, такие как:
ЧАСТОТА СЛОВА
must 10000
amazing 9999
или word percentage
:
must 0.2
amazing 0.19
но как рассчитать idf
, я имею в виду, мне нужно найти некоторые функции, чтобы отличить этот набор данных от других?или КАК tfidf
используется в текстовой классификации?