Сумма невязок в ограниченной линейной регрессии - PullRequest
2 голосов
/ 04 июля 2019

Имеет ли значение сумма остатков == 0, даже если мы добавим ограничения ординальности для коэффициентов в регрессионной модели?

Ответы [ 2 ]

0 голосов
/ 06 июля 2019

В идеале, ошибки должны распределяться равномерно, то есть ошибки могут быть как положительными, так и отрицательными, которые сводятся к нулю. В реальных случаях они никогда не равны нулю из-за шума в данных. Но если вы наблюдаете какую-либо закономерность в распределении ошибок, которая показывает устойчивое увеличение или уменьшение, это означает, что мы не уловили это в нашей модели. Я довольно новичок в Data Science. Пожалуйста, дайте мне знать, если я ошибаюсь.

0 голосов
/ 05 июля 2019

В реальных случаях ошибки никогда не сводятся к нулю, поскольку имеют тенденцию к накоплению .

Учтите, что ваша ошибка равномерно колеблется в диапазоне [-999, + 999] между всеми точками данных.Теперь мы можем суммировать эту ошибку для k точек данных и нарисовать график err_sum = f(k).Тестовый код C ++:

#include <iostream>
#include <sys/random.h>

int main()
{

  int i,k;
  int rnd;
  int err; 
  char buf[4];

  for (k=10000; k < 1000000; k+=10000) {
    err = 0;
    for (i=0; i < k; i++) {
      getrandom(buf, 4, 0);
      rnd = *(int*)buf;
      err += rnd%1000;
    }
    std::cout << k << "," << err << "\n";
  }

  return EXIT_SUCCESS;
}

Результирующий график: enter image description here

Из графика видно, что сумма ошибок не сходится к нулю, так каклюбое другое значение.Он просто увеличивается с добавлением дополнительных точек данных.Кроме того, с каждым k значения более разбросаны от линейного приближения до того момента, когда поведение вряд ли можно назвать «линейным».

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...