У меня 8 входных и 1 выходной столбец для прогнозирования. При попытке установить countvectorizer и tfidf я получаю
ValueError: Found input variables with inconsistent numbers of samples: [7, 23752]
Но X_train.shape
и X.shape
правильно, тогда когда я применяю fit_transform, почему я получаю эту ошибку?
Код
X_train, X_test, y_train, y_test = train_test_split(df[['A','B','C',
'D','E','F',
'G']], df.final, test_size=0.2,
random_state = 42)
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfTransformer
nb = Pipeline([('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', MultinomialNB()),
])
nb.fit(X_train, y_train)
Notebook_Code_Image