В моем наборе данных есть 3 входных столбца (Производитель, краткий текст, поставщик), из которых я sh создаю список объектов векторизации. И тогда я ожидаю, что то же самое подойдет для модели машинного обучения. Последний столбец (категория) является меткой. У меня есть 2 миллиона строк в наборе данных. Я не могу векторизовать все три столбца одновременно.
Образец данных
train_X, test_X, train_Y, test_Y = model_selection.train_test_split(df[["Manufacturer", "short text", "supplier"], df['category'],test_size=0.15, random_state=500)
train_X = pd.DataFrame(data = train_X)
train_Y = pd.DataFrame(data = train_Y)
test_X = pd.DataFrame(data = test_X)
test_Y = pd.DataFrame(data = test_Y)
# creating SVM model
text_clf_svm = Pipeline([('vect', CountVectorizer(lowercase=True, preprocessor= None, tokenizer= None, ngram_range=(1,6), stop_words= 'english', analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False)),
('tfidf', TfidfTransformer()),
('clf-svm', SGDClassifier(loss='modified_huber', penalty='l2',shuffle=True,
alpha=0.000001, max_iter=9, random_state=None)),])
#running training data on svm model
text_clf_svm1 = text_clf_svm.fit(train_X, train_Y)
Ошибка
Found input variables with inconsistent numbers of samples
Пожалуйста, дайте мне знать, как векторизовать все 3 столбца вместе.
Заранее спасибо.