ValueError: x и y должны быть одинакового размера - PullRequest
0 голосов
/ 28 октября 2019

У меня есть набор данных, который я пытаюсь вычислить линейной регрессии, используя sklearn. Набор данных, который я использую, уже создан, поэтому проблем с ним не должно быть. Я использовал train_test_split для того, чтобы разделить мои данные на обучающие и тестовые группы. Когда я пытаюсь использовать matplotlib для создания точечной диаграммы между моим ttest и группой прогнозирования, я получаю следующую ошибку:

ValueError: x и y должны быть одинакового размера

Это мой код:

y=data['Yearly Amount Spent']
x=data[['Avg. Session Length','Time on App','Time on Website','Length of Membership','Yearly Amount Spent']]
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=101)

#training the model

from sklearn.linear_model import LinearRegression
lm=LinearRegression()
lm.fit(x_train,y_train)
lm.coef_

predictions=lm.predict(X_test)

#here the problem starts:

plt.scatter(y_test,predictions)

Почему возникает эта ошибка? Я видел предыдущие посты здесь, и для этого предлагалось использовать x.shape и y.shape , но я не уверен, какова цель этого.

Спасибо

1 Ответ

0 голосов
/ 28 октября 2019

Похоже, что вы используете набор данных EcommerceCustomers.csv ( ссылка здесь )

В вашем исходном сообщении столбец 'Yearly Amount Spent' также включен в y, а такжев x, но это не так.

Следующее должно работать нормально:

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

data = pd.read_csv("EcommerceCustomers.csv")

y = data['Yearly Amount Spent']
X = data[['Avg. Session Length', 'Time on App','Time on Website', 'Length of Membership']]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)


# ## Training the Model
lm = LinearRegression()
lm.fit(X_train,y_train)

# The coefficients
print('Coefficients: \n', lm.coef_)

# ## Predicting Test Data
predictions = lm.predict( X_test)

См. также this

...