Я изучил разницу между методами TF-IDF и BoW , но у меня есть большие сомнения по этому поводу. Я думал, что эти два метода могут быть объединены, я объясню лучше. У меня есть CSV-файл (MY_DATA
) с тысячами комментариев из социальной сети, я хотел бы использовать этот набор данных для создания моего BoW
для создания classification model
настроения комментариев (настроение комментариев является другой переменной MY_DATA
и имеет три типа: положительный, отрицательный и нейтральный)
tf = TfidfVectorizer()
text_tf = tf.fit_transform(MY_DATA['comments'])
X_train, X_test, y_train, y_test = train_test_split(text_tf, MY_DATA['sentiment'], test_size=0.2)
#Classification model Multinomial Naive Bayes
clf = MultinomialNB().fit(X_train, y_train)
predicted = clf.predict(X_test)
Теперь, когда вы увидели мой скрипт, я хотел бы знать, использую ли я метод TF-IDF правильно. Как я могу применить метод BoW в моем случае? Два метода неизбежно остаются несовместимыми?