У меня есть набор данных с 16 столбцами и 12000 строк, и из 16 12 являются категориальными переменными. Мой основной мотив состоит в том, чтобы использовать различные методы выбора моделей и найти те, которые дают наименьшую ошибку с более высоким прогнозом, используя R.
Я провел некоторое исследование и обнаружил, что люди говорят о том, чтобы делать манекены из всех категориальных переменных, но насколько это полезно в любом случае? При воспроизведении техники Лассо я получаю коэффициент, который больше 161, что, очевидно, ведет мой анализ к контрольно-пропускному пункту.
Нужна помощь в этом, очень ценю.