Как выбрать модель регрессии после использования регрессии лучших подмножеств? - PullRequest
0 голосов
/ 08 декабря 2018

Я использую пакет прыжков в R для назначения.Мне дали переменную результата и 20 независимых переменных, и мне сказали найти модель, с которой были сгенерированы точки данных.Я сузил это до двух моделей, которые отличаются только одним взаимодействием второго порядка.Мой уровень значимости составляет 0,001, и мое значение t составляет 3,295 по сравнению с 1999 годом.Когда я проверяю модели, которые включают это взаимодействие второго порядка, его t-значение очень близко, но чуть выше 3.295, а его p-значение составляет примерно 0.000991.

Есть ли способ убедиться, что я не совершаю ошибку типа I, включив этот термин?Мне сказали включить переменные в регрессию без их терминов взаимодействия, и если они остаются значимыми, то они, вероятно, находятся в модели.Однако мой профессор также объяснил нам, что простое объяснение часто является правильным (бритва Оккама).

Извините, если это слишком расплывчато, но я очень не решаюсь размещать в Интернете слишком много информации о проекте.

1 Ответ

0 голосов
/ 08 декабря 2018

При выборе модели, как вы указали, вы, как правило, хотите использовать более экономные модели, чтобы у них было меньше предположений.Скорректированный R квадрат работает;более популярными методами являются информационный критерий Акаике и байесовский информационный критерий.Обычно BIC более консервативен, чем AIC.Когда люди используют AIC или BIC, они обычно хотят получить оценку ниже .Нет такой вещи как значимость, потому что это полностью относительная мера.

Когда вы говорите о значительной разнице, я думаю, что вы говорите об анализе отклонений.Вероятности распределяются по распределению хи-квадрат, поэтому вы можете проверить разницу между двумя моделями с помощью теста логарифмического отношения правдоподобия или ANOVA, если две модели вложены друг в друга, что походит на то, что вы естьописание, где модели отличаются только путем добавления параметра.Независимо от того, является ли индивидуальный контраст параметра существенным или нет, это не обязательно делает вашу модель более подходящей, поэтому вы хотите протестировать всю модель на соответствие модели, почти такой же, как она.

Код просто anova(reducedmodel, fullmodel), в качестве альтернативы, проверка логарифмического отношения правдоподобия может быть выполнена с использованием пакета lmtest lrtest(fullmodel,reducedmodel)

...