Прямой отбор и обратная ликвидация - PullRequest
0 голосов
/ 24 марта 2020

Я анализирую некоторые данные. У меня есть 7 функций и хочу предсказать у. Я выполнил прямой отбор и откат назад, но обе модели дают очень плохие результаты. Я сгенерировал больше функций путем преобразования переменных x (x ^ 2, x ^ 3, 1 / x, x ^ (1/2)), чтобы увидеть, улучшатся ли результаты (всего 28 переменных). После запуска кода I получить даже худшие результаты, независимо от того, что я делаю (настроить уровень значимости, изменить критерии исключения), я всегда получаю перехват в качестве функции регрессии в прямом выборе и всех переменных (нормальных и преобразованных) в обратном исключении.

У вас есть идея, почему это происходит? Насколько я понимаю, в случае прямого выбора алгоритм проверяет p-значения каждой переменной и добавляет лучшее. таким образом, если в первом случае (без преобразованных переменных) x1 находится в функции регрессии, во втором случае (с преобразованными переменными) x1 также должен быть в функции регрессии, а не просто как перехват.

Заранее спасибо.

1 Ответ

0 голосов
/ 26 марта 2020

Ваш зависимый (у) коррелирует с какой-либо из ваших независимых или созданных функций x? Как вы оцениваете модель, R-squared является популярным показателем c. Значение, близкое к 1, может указывать на лучшую модель, поскольку выбранные вами переменные x хорошо объясняют изменение (прогнозирование) y. Лучшее значение c может быть вашим Adjusted R Squared, так как оно будет иметь меньшее значение, если вы используете больше х переменных, и будет больше или ближе к R Squared, если вы используете меньше х переменных.

Какой-то код или инструмент может помочь в предоставлении более конкретного c ответа.

Кроме того, вы используете регрессионный анализ. Есть много типов, которые используют разные предположения. Тем не менее, иногда регрессионный анализ не может быть алгоритмом выбора для разработки идеальной модели

...