Я занимаюсь анализом настроений и для генерации признаков из текста, я использую метод TF-IDF, но не могу интерпретировать вывод.
Я использовал функцию TfidfVectorizer из Sklearn.
Я использовал следующий код:
из sklearn.feature_extraction.text import TfidfVectorizer tfidf_vectorizer = TfidfVectorizer (max_df = 0,90, min_df = 2, max_features = 1000, stop_words = 'english') tfidf = tfit_f(combi ['tidy_tweet'])
Ниже выводится:
(0, 302) 0,46871135687055143 (0, 463) 0,5896490179849546 (0, 738) 0,6577413621857342 (1, 879) 0,3938406681, 131) 0,6145629375807904 (1, 600) 0,6835218920644196 (2, 79) 1,0 (3, 557) 0,7040384885805177 (3, 518) 0,44016705593507854 (3, 888) 0,5572995329862621 (4, 566) 1,0 (5, 3 595), 5 (5), 3, 595, 5, 3, 5, 95)858) 0,4743403266916206 (5, 69) 0,4637175931713698 (5, 485) 0,4652198168550412 (6, 121) 0,8067676118019697 (6, 894) 0,5868769751051355 (7, 749) 0,47546741144240784 (7, 9)92) 0,40262612331421974 (7, 283) 0,6221668428341786 (7, 883) 0,20713435439054187 (7, 393) 0,22953868678391207 (7, 432) 0,29836739781603
Я могу понять, что последний столбец - это TF-IDFстолбцы.