У меня есть набор данных, который я пытаюсь вычислить линейной регрессии, используя sklearn. Набор данных, который я использую, уже создан, поэтому проблем с ним не должно быть. Я использовал train_test_split для того, чтобы разделить мои данные на обучающие и тестовые группы. Когда я пытаюсь использовать matplotlib для создания точечной диаграммы между моим ttest и группой прогнозирования, я получаю следующую ошибку:
ValueError: x и y должны быть одинакового размера
Это мой код:
y=data['Yearly Amount Spent']
x=data[['Avg. Session Length','Time on App','Time on Website','Length of Membership','Yearly Amount Spent']]
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=101)
#training the model
from sklearn.linear_model import LinearRegression
lm=LinearRegression()
lm.fit(x_train,y_train)
lm.coef_
predictions=lm.predict(X_test)
#here the problem starts:
plt.scatter(y_test,predictions)
Почему возникает эта ошибка? Я видел предыдущие посты здесь, и для этого предлагалось использовать x.shape и y.shape , но я не уверен, какова цель этого.
Спасибо