ValueError: Найдены входные переменные с непоследовательным количеством выборок: [2, 44] - PullRequest
0 голосов
/ 04 марта 2020

У меня есть фрагмент кода, в котором я очищаю текст из столбца «Описание» и сохраняю его как «очищенный»

Затем я создаю модель ML, используя описанную выше в качестве одной из своих функций.

X = data[['originalname','cleaned']]
Y = data['Total score']

X_train, X_test, y_train, y_test = train_test_split(X,Y, 
test_size=0.2,random_state=42)

pipeline = Pipeline(
    [('vect', TfidfVectorizer(ngram_range=(1, 2), 
    stop_words="english", sublinear_tf=True)),
    ('chi',  SelectKBest(chi2, k='all')),
    ('clf', LinearSVC(C=1.0, penalty='l1', max_iter=300, dual=False))])

X_train.shape ---> (44, 2)

y_train.shape ---> (44,)

Попытка Поезд модели дает мне вышеуказанную ошибку

model = pipeline.fit(X_train, y_train)

Как использовать «исходное описание» и «очищенный» в качестве функции для прогнозирования «Суммарного балла» без вышеуказанной ошибки?

...