как вычислить TF-IDF на конкретном наборе данных c - PullRequest
0 голосов
/ 07 августа 2020

У меня есть набор статей. Некоторые онлайн-примеры обычно жестко кодируют корпус. Если я хочу рассчитать TF-IDF для моего собственного набора данных, что мне делать?

Примечание. Я создал фрейм данных для хранения этих данных. Вот мой код

pip install scikit-learn
from sklearn.feature_extraction.text import CountVectorizer 

corpus = merged_df['title']

vectorizer = CountVectorizer()
wordFrequency = vectorizer.fit_transform(corpus)
word = vectorizer.get_feature_names()

print(word)


#-----------------------

from sklearn.feature_extraction.text import TfidfTransformer 

transformer = TfidfTransformer()
tfidf = transformer.fit_transform(wordFrequency)

1 Ответ

0 голосов
/ 07 августа 2020

Вероятно, вы могли бы попробовать TfIfdVectorizer вместо CountVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(min_df=5) # min_df Applies to minimum document frequency, not necessary
wordFrequency = vectorizer.fit_transform(corpus)
word = vectorizer.get_feature_names()

print(word)

По сути, просто измените используемый векторизатор. Ура!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...