Попытка классифицировать твиты как спам, ненавистный, оскорбительный и обычный. У меня есть фрейм данных со столбцами, такими как "is_verified", "последователи", "друзья", "твиты", "метка".
Я попытался преобразовать свои столбцы «твитов» во встраивание перчаток и удалил исходный текстовый столбец в моем фрейме данных и добавил вектор внедрения в качестве столбца в классификатор.
Когда я попытался передать его в наивный байес, он показал отрицательный результатошибка значения.Когда я передавал его в Xg boost, он выдавал ошибку «DataFrame.dtypes для данных должны быть int, float или bool. Не ожидал, что типы данных в текстовых полях»
Я снова сделал Count Vectorizarition, нокогда я добавил это как столбец и перешел к наивному байесу, он дал «ValueError: установка элемента массива с последовательностью»
'' 'python
tfidf_vect = TfidfVectorizer(analyzer='word',
token_pattern=r'\w{1,}', max_features=5000)
tfidf_vect.fit(x_train['text'])
x_train['text'] = tfidf_vect.transform(x_train['text'])
x_test['text']= tfidf_vect.transform(x_test['text'])
print(x_train.dtypes)
from sklearn.naive_bayes import MultinomialNB
model = MultinomialNB()
# Train the model using the training sets
model.fit(x_train,y_train)
#Predict Output
preds= model.predict(x_test)
' ''