Как реализовать нелинейную модель регрессии в R - PullRequest
1 голос
/ 02 апреля 2019

Я довольно плохо знаком с R и со статистикой, и мне очень нужна ваша помощь.Я должен проанализировать некоторые данные, чтобы найти аналитическую модель, которая описывает это.У меня есть 2 ответа (y1, y2) и (4 предикторов).Я подумал о проведении анализа с использованием R и следовал этим шагам: 1) Для каждого ответа я тестировал линейную модель (команда lm) и обнаружил:

Call:
lm(formula = data_mass$m ~ ., data = data_mass)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.805e-06 -1.849e-06 -1.810e-07  2.453e-06  7.327e-06 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.367e-04  1.845e-05  -7.413 1.47e-06 ***
d            1.632e-04  1.134e-05  14.394 1.42e-10 ***
L            2.630e-08  1.276e-07   0.206  0.83927    
D            1.584e-05  5.103e-06   3.104  0.00682 ** 
p            1.101e-06  1.195e-07   9.215 8.46e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.472e-06 on 16 degrees of freedom
Multiple R-squared:  0.9543,    Adjusted R-squared:  0.9429 
F-statistic: 83.51 on 4 and 16 DF,  p-value: 1.645e-10

2) Поэтому я проанализировал, насколько хорошомодель, взглянув на plot(model) графики.Глядя на график «остаточная или приведенная стоимость», модель не должна быть линейной !!Правильно ли это?

3) Я пытался устранить некоторые факторы (например, «L») и ввести некоторые квадратичные термины (d ^ 2; D ^ 2), но график «остаточное против подгоночного значения» имеетта же тенденция.

Что мне теперь делать?Должен ли я использовать нелинейную модель?

Спасибо всем, кто может помочь мне =)

ОБНОВЛЕНИЕ :

Еще раз спасибо.Я приложил график сюжета (модели) и ДАННЫХ.Ответами являются m, Fz и предикторы d, L, D, p.Модель представляет собой линейную модель отклика м.

[Residual vs Fitted][1]
[Normal Q-Q][2]
[Scale Location][3]
[Residual vs Leverage][4]
[DATA][5]

enter code here

enter image description here

enter image description here

enter image description here enter image description here

1 Ответ

0 голосов
/ 02 апреля 2019

Если посмотреть график зависимости «остаточное значение от установленного значения», модель не должна быть линейной! Это правильно?

Да и нет. Если абсолютное значение остатков имеет сильную корреляцию с подобранными значениями, это может означать гетероскедастичность (дисперсию неоднородности). Тогда остатки не будут равномерно распределены по установленным значениям. А гетероскедастичность - это одна из вещей, которую вы можете посмотреть на подогнанном графе против , поскольку она может сделать недействительными статистические тесты, такие как *t*-test или lm. Вы также можете подтвердить это с помощью scale-location plot (что довольно похоже на это, но немного лучше).

С другой стороны, нелинейное распределение указывает нелинейность и, возможно, захочет изменить структуру вашей модели. Хотя вы не будете иметь ни линейных, ни нелинейных отношений между невязками и подобранными значениями: в идеальном случае значения сценария должны быть более или менее случайным и симметричным разбросом вокруг 0 ​​между двумя параллельными линиями с наклоном 0. Вы можете найти больше обсуждений по этому вопросу здесь: 1 2 3

Что мне теперь делать? Стоит ли использовать нелинейную модель?

Если ваши диагностические графики указывают на нелинейность, вы можете изменить / реструктурировать / перенастроить вашу модель (или преобразовать данные) - здесь обсуждается вариант здесь

...