Как использовать регрессию, когда предположение о постоянной дисперсии, линейности и нормальности не выполняется - PullRequest
0 голосов
/ 26 июня 2018

Мне нужно построить модель, которая прогнозирует ответ на основе 2 прогнозирующих переменных. Я использую R в качестве программного обеспечения.

Я пробовал следующие методы с заданными значениями R в квадрате: 1. Линейная регрессия - 0,556 2. Регрессия дерева решений - 0.608 3. линейная регрессия (после удаления выбросов методом расстояния поваров) - 0,6068 4. Полиномиальная регрессия (степень 3) по данным без выбросов - 0,608

когда я проверяю предположения, я вижу ниже график - мы видим, что ни одно из предположений не выполняется.

Есть ли какая-то другая модель регрессии, которую я должен использовать? Я подтвердил, что данные, над которыми я работаю, чистые.

Суммарные результаты линейной регрессии приведены ниже

Call:
lm(formula = Freight ~ TotalWeight + distance, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-1104.56   -60.39   -17.69    28.99  2076.90 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 3.286e+01  7.141e+00   4.601 4.49e-06 ***
TotalWeight 9.666e-02  2.246e-03  43.042  < 2e-16 ***
distance    5.235e-05  2.884e-06  18.152  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 165.1 on 1790 degrees of freedom
  (3 observations deleted due to missingness)
Multiple R-squared:  0.5556,    Adjusted R-squared:  0.5551 
F-statistic:  1119 on 2 and 1790 DF,  p-value: < 2.2e-16

Как мы видим, обе независимые переменные имеют чрезвычайно малые значения p, то есть они очень актуальны. 95% доверительный интервал составляет

                   2.5 %       97.5 %
(Intercept) 1.885358e+01 4.686585e+01
TotalWeight 9.225246e-02 1.010612e-01
distance    4.669026e-05 5.800235e-05

Есть ли какой-нибудь метод, который я мог бы использовать, чтобы лучше соответствовать данным.

...