Выбор переменной, включающей сочетание числовых, высоких кардинальных и низких кардинальных характеристик - PullRequest
2 голосов
/ 12 февраля 2020

Рассмотрим фиктивный фрейм данных:

A B C  D …. Z
1 2 as we   2
2 4 qq rr   5 
4 5 tz rc   9

Этот фрейм данных имеет 25 независимых переменных и одну целевую переменную, независимые переменные представляют собой смесь высоких кардинальных, числовых и низких кардинальных характеристик, а целевая переменная численный. Теперь я сначала хочу выбрать или отфильтровать переменные, которые полезны при прогнозировании целевой переменной. Любые предложения или советы по достижению этой цели приветствуется. Надеюсь, мой вопрос ясен, если форма вопроса неясна, я приветствую предложения внести исправления.

Что я пробовал до сих пор? Я применил целевое среднее кодирование (сглаженное среднее) к категориальным признакам относительно целевой переменной. Затем я применил случайный лес, чтобы узнать значение переменной. И странная вещь в том, что случайный лес все время выбирает только одну особенность, я ожидал как минимум 3-4 значимых переменных. Я пробовал нейронные сети, но результат ничем не отличается, что может быть причиной для этого? Что это значит, если алгоритмы используют только одну переменную? И тестовые прогнозы не очень точны. Среднеквадратическое среднеквадратичное значение составляет около 2,4, где целевое значение обычно колеблется в диапазоне 20-40. Спасибо за ваше терпение, прочитав это. PS: я использую SKlearn и в python.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...