OLS Step Forward, чтобы бежать навсегда - PullRequest
0 голосов
/ 24 апреля 2020

У меня есть фрейм данных с 16 тысячами наблюдений. В моей модели, lm(), у меня есть примерно сто переменных-предикторов. Одной из них является категориальная переменная с примерно 500 уровнями.

Если я разбью свой фрейм данных на подкомпоненты примерно из 1000 наблюдений каждый, я могу выполнить выбор модели, используя ols_step_forward_aic() из library(olsrr) менее чем за 60 минут. Однако я хотел бы проверить эффективность этого подхода, сравнив результаты одного и того же выбора модели на всем наборе данных. Когда я запускаю ols_step_forward_aic() на всем фрейме данных, используя ту же самую модель, это занимает 12+ часов.

Является ли влияние на время дополнительных наблюдений нелинейным? Это размер категориальной переменной, когда я переключаюсь на весь набор данных, который замедляет меня? Есть ли другая функция, которая может выполнить эту операцию быстрее? Будет ли преобразование данных в моих переменных предиктора ускорить процесс? Являются ли 100 кандидатов-предикторов полностью необоснованными? Спасибо за вашу помощь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...