У меня этот код работает нормально
df_amazon = pd.read_csv ("datasets/amazon_alexa.tsv", sep="\t")
X = df_amazon['variation'] # the features we want to analyze
ylabels = df_amazon['feedback'] # the labels, or answers, we want to test against
X_train, X_test, y_train, y_test = train_test_split(X, ylabels, test_size=0.3)
# Create pipeline using Bag of Words
pipe = Pipeline([('cleaner', predictors()),
('vectorizer', bow_vector),
('classifier', classifier)])
pipe.fit(X_train,y_train)
Но если я попытаюсь добавить еще одну функцию в модель, заменив
X = df_amazon['variation']
на
X = df_amazon[['variation','verified_reviews']]
У меня появляется это сообщение об ошибке от Sklearn, когда я звоню fit
:
ValueError: Найдены входные переменные с непоследовательным количеством выборок: [2, 2205]
Итакfit
работает, когда X_train
и y_train
имеют формы (2205,) и (2205,).
Но не тогда, когда формы меняются на (2205, 2) и (2205,).
Какой лучший способ справиться с этим?