Случайный лес против логистической регрессии - PullRequest
0 голосов
/ 14 апреля 2019

Я работаю над набором данных. Это проблема классификации. В одном столбце набора данных содержится около 11000 пропущенных значений из общего числа 300 тыс. Наблюдений (это категориальная переменная, поэтому вложение пропущенных значений, такое как числовые, невозможно).

Желательно ли продолжать случайный лес, а не логистическую регрессию, поскольку случайный лес не подвержен отсутствующим значениям?

Также нужно ли мне заботиться о мультиколлинеарности между независимыми переменными при использовании RF, или в этом нет необходимости?

1 Ответ

1 голос
/ 14 апреля 2019
  1. Хотя RFM может обрабатывать шумовые данные и пропущенные значения, кажется трудным сказать, что это лучше, чем логистика. Потому что логистику также можно улучшить с помощью другой предварительной обработки (PCA или вменения отсутствующих данных) или ансамблевого метода.

  2. Я думаю, что РФ не нужно принимать во внимание мультиколлинеарность. Это потому, что переменные выбираются случайным образом для создания разных деревьев и получения результатов. В этом процессе наиболее важные атрибуты выбираются и интерпретируются как решение проблемы мультиколлинеарности с аналогичными тенденциями.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...