В моей модели прогнозирования есть как категориальные, так и непрерывные функции, и я хочу выбрать (и оценить) наиболее важные функции.
Я преобразовал все категориальные переменные в двоичные для лучшей интерпретации. Когда я использую LogisticRegression
, тогда модель работает не так хорошо, как Decision Tree
модели (RandomForest
, ExtraTree
), а также LogisticRegression
определяет категориальные переменные среди самых важных и редко все непрерывные переменные среди их.
Но Decision Tree
модели всегда выбирают непрерывные функции как наиболее важные и редко добавляют к модели несколько категориальных. Какое толкование (ранжирование) является более правильным?