Я использую 600 предложений, которые принадлежат трем классам: нейтральный, положительный и отрицательный.
Я использовал CountVectorizer
для их векторизации, и теперь я хочу взвесить их, используя tfidftransformer
.
Можно ли использовать use_idf
параметр scikit-learn
s tfidftransformer
со значением True
?И что за теория стоит за этим?
У меня есть сомнения по поводу use_idf=true
, потому что это обозначает обратную частоту документов, и здесь я использую только предложения вместо документов.
cv_vectorizer = CountVectorizer()
featured_text = cv_vectorizer.fit_transform(preprocessed_text)
tfidftransform = TfidfTransformer( use_idf= ? )# True or False
tfidf_features = tfidftransform.fit_transform(featured_text )#
tfidf_features = tfidf_features.toarray()#