Я нашел этот поток из 2014 , и в ответе говорится, что нет, классификатор случайных лесов sklearn не может обрабатывать категориальные переменные (или, по крайней мере, не напрямую). Изменился ли ответ в 2020 году?
Я хочу указать gender
в качестве функции для моей модели. Однако gender
может принимать три значения: M
, F
из np.nan
. Если я закодирую этот столбец в три дихотомических столбца, как классификатор случайных лесов узнает, что эти три столбца представляют один элемент?
Представьте себе max_features
= 7. При обучении данного дерева оно случайным образом выбирает случайным образом семь функций. Предположим, выбран gender
. Если gender
разделен на три столбца (gender_M
, gender_F
, gender_NA
), будет ли классификатор случайных лесов всегда выбирать все три столбца и считать его как один объект, или есть вероятность, что он выберет только один или два?