вот проблеск моих данных. я скачал данные с https://www.kaggle.com/rmisra/news-category-dataset
x_train.shape
(140597, 2)
y_train.shape
(140597,)
код:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfTransformer
nb = Pipeline([('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', MultinomialNB()),
])
это мой код, но когда я вызываю функцию nb.fit(x_train, y_train)
, я получаю сообщение об ошибке:
Found input variables with inconsistent numbers of samples