Являются ли методы TF-IDF и BoW несовместимыми? - PullRequest
1 голос
/ 21 января 2020

Я изучил разницу между методами TF-IDF и BoW , но у меня есть большие сомнения по этому поводу. Я думал, что эти два метода могут быть объединены, я объясню лучше. У меня есть CSV-файл (MY_DATA) с тысячами комментариев из социальной сети, я хотел бы использовать этот набор данных для создания моего BoW для создания classification model настроения комментариев (настроение комментариев является другой переменной MY_DATA и имеет три типа: положительный, отрицательный и нейтральный)

tf = TfidfVectorizer()
text_tf = tf.fit_transform(MY_DATA['comments'])
X_train, X_test, y_train, y_test = train_test_split(text_tf, MY_DATA['sentiment'], test_size=0.2)

#Classification model Multinomial Naive Bayes
clf = MultinomialNB().fit(X_train, y_train)
predicted = clf.predict(X_test)

Теперь, когда вы увидели мой скрипт, я хотел бы знать, использую ли я метод TF-IDF правильно. Как я могу применить метод BoW в моем случае? Два метода неизбежно остаются несовместимыми?

...