Использование случайного леса для выбора объекта - работа с коррелированными переменными - PullRequest
0 голосов
/ 10 июня 2019

Я хотел бы знать, как обращаться с коррелированными переменными при построении случайного леса для выбора объектов

Поэтому мне нужно сделать выбор некоторых объектов для разных наборов данных, которые содержат категориальные и непрерывные переменные.Я немного растерялся, потому что наиболее очевидной мерой корреляции является коэффициент корреляции Пирсона, который работает для непрерывных переменных, но как насчет категориальных переменных.

Сработал бы следующий подход, если бы я хотел сделать хороший выбор объектов, используяRF:

делать какой-то выбор признаков по непрерывным переменным независимо от категориальных переменных, используя любой из методов, описанных в этой статье: https://machinelearningmastery.com/an-introduction-to-feature-selection/

Из того, что я понимаю, одномерный выбор, RFE или PCA действительны только для непрерывных переменных.(Я сомневаюсь, что преобразование категориального с помощью одного горячего кодирования, а затем использование этих методов будет полезным)

После выбора непрерывных переменных создайте случайный лес, который даст некоррелированные переменные.

Однако,можно ли коррелировать категориальные переменные?Если да, было бы полезно сделать тест хи-квадрат только для категориальных переменных.

В конце концов, было бы хорошим решением объединить результаты выбора функции для непрерывных переменных + тест хи-квадрат для переменных кошки?

Спасибо за вашу помощь, я новичок в выборе функций:)

...