Выбор объектов в наборе двоичных данных (категориальный) - PullRequest
0 голосов
/ 20 декабря 2018

Мой набор данных содержит 32 категориальные переменные и одну числовую непрерывную переменную (sales_volume)

Сначала я преобразовал категориальные переменные в двоичные с горячим кодированием (pd.get_dummies), и теперь у меня есть 1294 столбца с каждого столбцаимеет несколько категориальных переменных.

Теперь я хочу уменьшить их, прежде чем использовать какие-либо методы уменьшения размеров.

  1. Каков наилучший вариант выбора наиболее эффективных переменных?

  2. Например;одна категориальная переменная имеет два ответа «да» и «нет».Возможно ли, чтобы столбец «да» имел существенное значение, а столбцу «нет» нечего было объяснить?Вы бы отбросили вопрос (столбцы «да» и «нет») или просто столбец «нет»?

Заранее спасибо.

1 Ответ

0 голосов
/ 20 декабря 2018

На sklearn вы можете использовать sklearn.feature_selection.SelectFromModel, что позволит вам подогнать модель под все ваши функции и выбрать только те функции, которые имеют большее значение в этой модели, например RandomForest.Метод get_support() дает вам важные функции.

from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

clf = RandomForestClassifier()
sfm = SelectFromModel(clf)
sfm.fit(X,y)

sfm.get_support() 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...