У меня есть датафрейм, содержащий 40 переменных.Эти 40 переменных можно разделить на четыре подмножества из 10 переменных, назовем их A, B, C и D. Мне интересно найти наилучшую комбинацию переменных для линейных и логистических регрессий по некоторой зависимой переменной y.
Теперь я уже выполнил пошаговые регрессии, используя 'regsubsets' из библиотеки 'leaps' и 'bestglm' из библиотеки 'bestglm', и получил некоторые результаты.Оптимальные модели идентичны для линейной и логистической регрессии.
С теоретической точки зрения было бы логично, чтобы мои оптимальные модели содержали переменные из каждого подмножества, поскольку, вероятно, существуют сильные корреляции внутри подмножеств и относительно мало между подмножествами.Однако, это не так.
Поскольку могут быть некоторые проблемы с мультиколлинеарностью и небольшим размером выборки, я хочу попробовать свою собственную ограниченную версию ступенчатой регрессии.Более конкретно, я хочу попробовать пошаговую регрессию с дополнительным ограничением, что выбранные «оптимальные» (оптимальные данные ограничения) модели должны включать хотя бы одну переменную из каждого подмножества переменных A, B, C и D. Для начала я бы дажеХорошо, что это также максимальное количество переменных, т.е. я хотел бы найти способ найти «оптимальную» модель с 4 переменными, исключая перехват, учитывая дополнительное ограничение, что в каждой подмножестве переменных есть одна переменная.Хорошо начать с модели линейной регрессии, хотя, предпочтительно, логистическая регрессия также возможна.
Существует ли пакет, который допускает подобные ограничения и / или кто-нибудь знает способ сделать это?Мне известно о многих проблемах со ступенчатой регрессией для выбора переменных и других проблем, и я все еще хотел бы двигаться вперед с этим.Если у вас есть какой-либо другой способ выбора оптимальных моделей с учетом этих ограничений, предложения также приветствуются, хотя я предпочитаю пошаговую регрессию с предложенными мною ограничениями.