Как запустить TF-IDF в python для одного столбца из большого набора данных (файл CSV)? - PullRequest
0 голосов
/ 04 февраля 2020

Я пытаюсь создать python программу, которая запускает TF-IDF большого набора данных. Он имеет несколько столбцов и несколько строк данных. Моя проблема в том, что я не знаю, как ограничить его запуск только в одном из столбцов с комментариями.

1 Ответ

0 голосов
/ 04 февраля 2020

Вы можете извлечь значения нужного столбца и запустить для него TF-IDF:

from sklearn.feature_extraction.text import TfidfVectorizer

doc=df['Comments'].values #df is your dataframe
tf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tf.fit_transform(doc)

Надеюсь, это поможет.

...