Какую модель мне следует применить на основе моего набора данных? - PullRequest
0 голосов
/ 27 февраля 2020

У меня есть набор данных 50000 наблюдений и 12 функций. Я применил logisti c регрессию и случайный лес к проблеме бинарной классификации, но я могу применить только одну модель, однако проблема в том, что я, кажется, не понимаю основную структуру моих данных и то, какую модель мне следует применять. Обе модели дают одинаковую точность. Существует 12 столбцов, из которых 3 являются категориальными, а остальные - цифрами c непрерывных столбцов.

Гистограмма функций: enter image description here

, где я использовал пару и получил некоторую визуализацию, такую ​​как enter image description here enter image description here

Данные не кажутся мне линейно разделимыми, но довольно беспорядочными, и мне кажется, что я должен применять случайный лес, но обе модели дают примерно одинаковую точность

Тепловая карта

enter image description here

...