Я хотел бы знать, как обращаться с коррелированными переменными при построении случайного леса для выбора объектов
Поэтому мне нужно сделать выбор некоторых объектов для разных наборов данных, которые содержат категориальные и непрерывные переменные.Я немного растерялся, потому что наиболее очевидной мерой корреляции является коэффициент корреляции Пирсона, который работает для непрерывных переменных, но как насчет категориальных переменных.
Сработал бы следующий подход, если бы я хотел сделать хороший выбор объектов, используяRF:
делать какой-то выбор признаков по непрерывным переменным независимо от категориальных переменных, используя любой из методов, описанных в этой статье: https://machinelearningmastery.com/an-introduction-to-feature-selection/
Из того, что я понимаю, одномерный выбор, RFE или PCA действительны только для непрерывных переменных.(Я сомневаюсь, что преобразование категориального с помощью одного горячего кодирования, а затем использование этих методов будет полезным)
После выбора непрерывных переменных создайте случайный лес, который даст некоррелированные переменные.
Однако,можно ли коррелировать категориальные переменные?Если да, было бы полезно сделать тест хи-квадрат только для категориальных переменных.
В конце концов, было бы хорошим решением объединить результаты выбора функции для непрерывных переменных + тест хи-квадрат для переменных кошки?
Спасибо за вашу помощь, я новичок в выборе функций:)