Распределительный участок на питоне - PullRequest
0 голосов
/ 03 июня 2018

enter image description here

Мне нужна ваша помощь в понимании графика распространения.Я проходил урок по этой ссылке .В конце поста они упомянули:

Из графика видно, что в большинстве случаев прогнозы были правильными (разница = 0).

ИтакЯ не могу понять, как они анализируют график.

Ответы [ 2 ]

0 голосов
/ 03 июня 2018

Чтобы расширить обсуждение в комментарии, попробуйте выполнить следующий код:

plt.figure(figsize=(12,8))
plt.scatter(range(len(y_test)), y_test, marker='d', c='red')
plt.scatter(range(len(predictions)), predictions, marker='d', c='blue')
plt.scatter(range(len(y_test)), (y_test - predictions), marker='^', c='green')

Он покажет вам следующий график.Распределение y_test показано красным ромбом.Распределение predictions показано синим ромбом.Если вы вычтете каждую точку y_test с помощью predictions, это приведет к зеленому треугольнику.Поскольку мы пытаемся предсказать подсказки, мы хотим минимизировать ошибку между test data, то есть фактическими данными, и predictions, которые мы сделали с помощью машинного обучения.

Scatter Distribution

Если вы возьмете все эти зеленые треугольники и сделаете из них distplot, вы увидите изображение, которое вы прикрепили к вашему вопросу.Вот распределения каждой переменной:

# Code to reproduce the plot below
fig = plt.figure(figsize=(12,8))

ax = fig.add_subplot(311)
sb.distplot(y_test)
plt.title('y_test')
plt.xlim([-10, 10])

ax = fig.add_subplot(312)
sb.distplot(predictions)
plt.title('predicted tips')
plt.xlim([-10, 10])

ax = fig.add_subplot(313)
sb.distplot(y_test - predictions)
plt.title('y_test - predicted tips')
plt.xlim([-10, 10])

plt.tight_layout()

plt.show()

Distplot of each variable

0 голосов
/ 03 июня 2018

Вы можете думать о графике плотности, который показывает относительное количество вхождений данных при заданных значениях.Указанные значения представляют собой различия между наблюдаемыми и установленными значениями переменных.Если бы подгонка была идеальной, все различия были бы равны 0, и был бы всего один столбец на 0. Подгонка не идеальна, и есть некоторые различия, большие или меньшие, чем 0, но они не слишком далеки от нуля.,

Выводы, сделанные авторами, вероятно, слишком сильны: график не доказывает, что различия близки к нулю, но предполагает, что различия сосредоточены вокруг нуля.Как правило, это хороший результат для линейной регрессии.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...