У меня есть набор данных с кучей функций, большинство из которых связаны между собой. Таким образом, я хотел бы выполнить исключение некоторых переменных (например, используя RFE
или SelectKBest
).
Я обнаружил, что, если я выполню такой выбор переменных, после чего произойдет некоторая настройка гиперпараметров с использованием GridSearchCV
, а затем, в свою очередь, последующий раунд выбора переменных для уже ограниченного набора функций путем передачи параметров, найденных на предыдущем шаге, как Аргументы модели (Ridge
и SVC(kernel='rbf')
в моем случае) увеличивают средний перекрестный результат оценки.
Это плохая практика для выполнения такого рода двойного выбора переменной ? Это вносит какую-либо предвзятость или приводит к какой-либо конкретной проблеме?
Спасибо заранее.