У меня есть фрейм данных с 16 тысячами наблюдений. В моей модели, lm()
, у меня есть примерно сто переменных-предикторов. Одной из них является категориальная переменная с примерно 500 уровнями.
Если я разбью свой фрейм данных на подкомпоненты примерно из 1000 наблюдений каждый, я могу выполнить выбор модели, используя ols_step_forward_aic()
из library(olsrr)
менее чем за 60 минут. Однако я хотел бы проверить эффективность этого подхода, сравнив результаты одного и того же выбора модели на всем наборе данных. Когда я запускаю ols_step_forward_aic()
на всем фрейме данных, используя ту же самую модель, это занимает 12+ часов.
Является ли влияние на время дополнительных наблюдений нелинейным? Это размер категориальной переменной, когда я переключаюсь на весь набор данных, который замедляет меня? Есть ли другая функция, которая может выполнить эту операцию быстрее? Будет ли преобразование данных в моих переменных предиктора ускорить процесс? Являются ли 100 кандидатов-предикторов полностью необоснованными? Спасибо за вашу помощь.