Мне нужно построить модель, которая прогнозирует ответ на основе 2 прогнозирующих переменных. Я использую R в качестве программного обеспечения.
Я пробовал следующие методы с заданными значениями R в квадрате:
1. Линейная регрессия - 0,556
2. Регрессия дерева решений - 0.608
3. линейная регрессия (после удаления выбросов методом расстояния поваров) - 0,6068
4. Полиномиальная регрессия (степень 3) по данным без выбросов - 0,608
когда я проверяю предположения, я вижу ниже график -
мы видим, что ни одно из предположений не выполняется.
Есть ли какая-то другая модель регрессии, которую я должен использовать? Я подтвердил, что данные, над которыми я работаю, чистые.
Суммарные результаты линейной регрессии приведены ниже
Call:
lm(formula = Freight ~ TotalWeight + distance, data = data)
Residuals:
Min 1Q Median 3Q Max
-1104.56 -60.39 -17.69 28.99 2076.90
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.286e+01 7.141e+00 4.601 4.49e-06 ***
TotalWeight 9.666e-02 2.246e-03 43.042 < 2e-16 ***
distance 5.235e-05 2.884e-06 18.152 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 165.1 on 1790 degrees of freedom
(3 observations deleted due to missingness)
Multiple R-squared: 0.5556, Adjusted R-squared: 0.5551
F-statistic: 1119 on 2 and 1790 DF, p-value: < 2.2e-16
Как мы видим, обе независимые переменные имеют чрезвычайно малые значения p, то есть они очень актуальны.
95% доверительный интервал составляет
2.5 % 97.5 %
(Intercept) 1.885358e+01 4.686585e+01
TotalWeight 9.225246e-02 1.010612e-01
distance 4.669026e-05 5.800235e-05
Есть ли какой-нибудь метод, который я мог бы использовать, чтобы лучше соответствовать данным.