Передача кадра данных, содержащего твиты в виде одного столбца и другие атрибуты Twitter в качестве других столбцов, в классификатор - PullRequest
0 голосов
/ 09 апреля 2019

Попытка классифицировать твиты как спам, ненавистный, оскорбительный и обычный. У меня есть фрейм данных со столбцами, такими как "is_verified", "последователи", "друзья", "твиты", "метка".

Я попытался преобразовать свои столбцы «твитов» во встраивание перчаток и удалил исходный текстовый столбец в моем фрейме данных и добавил вектор внедрения в качестве столбца в классификатор.

Когда я попытался передать его в наивный байес, он показал отрицательный результатошибка значения.Когда я передавал его в Xg boost, он выдавал ошибку «DataFrame.dtypes для данных должны быть int, float или bool. Не ожидал, что типы данных в текстовых полях»

Я снова сделал Count Vectorizarition, нокогда я добавил это как столбец и перешел к наивному байесу, он дал «ValueError: установка элемента массива с последовательностью»

'' 'python

 tfidf_vect = TfidfVectorizer(analyzer='word', 
 token_pattern=r'\w{1,}', max_features=5000)
 tfidf_vect.fit(x_train['text'])
 x_train['text'] =  tfidf_vect.transform(x_train['text'])
 x_test['text']=  tfidf_vect.transform(x_test['text'])
 print(x_train.dtypes)

 from sklearn.naive_bayes import MultinomialNB
 model =  MultinomialNB()
 # Train the model using the training sets
 model.fit(x_train,y_train)

 #Predict Output
 preds= model.predict(x_test) 

' ''

...