Как сравнить эффективность различных моделей линейной регрессии - PullRequest
1 голос
/ 29 мая 2019

У меня есть фрейм данных, который содержит три более или менее значимых корреляции между целевым столбцом и другими столбцами (LinarRegressionModel.coef_ из sklearn показывает 57, 97 и 79).И я не знаю, какую именно модель выбрать: должен ли я использовать только наиболее коррелированный столбец для регрессии или использовать регрессию со всеми тремя предикторами.Есть ли способ сравнить эффективность моделей?Извините, я очень плохо знаком с анализом данных. Я не смог найти инструменты для этой задачи Google

1 Ответ

2 голосов
/ 30 мая 2019

Ну, во-первых, вы должны знать, что, когда мы выбираем лучшую модель для применения к новым данным, мы собираемся выбрать лучшую модель, подходящую для данных out of sample, которые могут не соответствовать образцам. присутствовать в процессе обучения, в конце концов, вы хотите предсказать новые вероятности или случаи. В вашем случае предсказывайте новое число.

Итак, как мы можем это сделать? Что ж, лучше всего использовать метрики, которые помогут нам выбрать, какая модель лучше подходит для нашего набора данных.

Существует так много видов метрик для регрессии:

  • MAE : средняя абсолютная ошибка - это среднее абсолютного значения ошибок. Это самый простой для понимания показатель, поскольку это просто средняя ошибка.
  • MSE : средняя квадратическая ошибка - это среднее квадратичной ошибки. Он более популярен, чем средняя абсолютная ошибка, потому что фокус больше ориентирован на большие ошибки.
  • RMSE : Корень означает, что квадрат ошибки равен квадратному корню из среднего квадрата ошибки. Это одна из самых популярных метрик оценки, поскольку корень означает, что квадратичная ошибка интерпретируется в тех же единицах, что и вектор ответа, или в единицах y, что упрощает сопоставление ее информации.
  • RAE : Относительная абсолютная ошибка, также известная как остаточная сумма квадрата, где y bar - среднее значение y, принимает общую абсолютную ошибку и нормализует ее путем деления на общую абсолютную ошибку простого предиктора.

Вы можете работать с любым из них, но я настоятельно рекомендую использовать MSE и RMSE .

...