Я работаю над набором данных. Это проблема классификации. В одном столбце набора данных содержится около 11000 пропущенных значений из общего числа 300 тыс. Наблюдений (это категориальная переменная, поэтому вложение пропущенных значений, такое как числовые, невозможно).
Желательно ли продолжать случайный лес, а не логистическую регрессию, поскольку случайный лес не подвержен отсутствующим значениям?
Также нужно ли мне заботиться о мультиколлинеарности между независимыми переменными при использовании RF, или в этом нет необходимости?