Линейная регрессия: есть ли разница в модели между использованием ML вместо MSE? - PullRequest
0 голосов
/ 19 февраля 2019

Мы знаем, что нам нужно 4 вещи для построения алгоритма машинного обучения:

  1. Набор данных
  2. Модель
  3. Функция стоимости
  4. Процедура оптимизации

На примере линейной регрессии (y = m*x +q) у нас есть два наиболее распространенных способа поиска наилучших параметров: использование ML или MSE в качестве функции стоимости.

Мы гипнотизируем данные Gaussian-distributed, используя ML.

Это предположение также является частью модели?

Это не так, почему?Является ли это частью функции стоимости?

В этом случае я не вижу «края» модели.

Ответы [ 2 ]

0 голосов
/ 19 февраля 2019

Является ли это предположение частью модели, также?

Да, это так.Идеи различных функций потерь вытекают из природы проблемы, а следовательно, из природы модели.

MSE по определению вычисляет среднее значение квадратов ошибок (ошибка означает разницу между действительным y и предсказанным y), которое, в свою очередь, будет высоким, если данные равны не Распределение по типу Гаусса.Просто представьте несколько экстремальных значений среди данных, что произойдет с наклоном линии и, следовательно, с остаточной ошибкой?

linear_regression_with_and_without_outlier

Стоит упомянуть предположения о линейной регрессии:

  1. Линейные отношения
  2. Многомерная нормальность
  3. Нет или мала мультиколлинеарность
  4. Нет автокорреляции
  5. Гомоскедастичность

Если это не так, почему?Является ли она частью функции стоимости?

Насколько я видел, предположение не имеет прямого отношения к самой функции стоимости, а связано, как упоминалось выше, с самой моделью.

Например, идея машины опорных векторов - разделение классов.Это обнаружение линии / гиперплоскости (в многомерном пространстве, которая разделяет классы аутов), поэтому ее стоимостная функция составляет Потеря шарнира для «максимального запаса» классификации.С другой стороны, Логистическая регрессия использует Log-Loss (связано с кросс-энтропией), потому что модель является двоичной и работает с вероятностью выхода (0 или 1).И этот список можно продолжить ...

0 голосов
/ 19 февраля 2019

Предположение о том, что данные распределены по Гауссу, является частью модели в том смысле, что для распределенных данных по Гауссу минимальная средняя квадратичная ошибка также дает решение максимальное правдоподобие дляданные, заданные параметрами модели.(Общее доказательство, вы можете найти его, если вам интересно).

Таким образом, вы можете сказать, что предположение Гаусса о распределении оправдывает выбор наименьших квадратов в качестве функции потерь.

...