Question

Мой набор данных содержит 32 категориальные переменные и одну числовую непрерывную переменную (sales_volume)

Сначала я преобразовал категориальные переменные в двоичные с горячим кодированием (pd.get_dummies), и теперь у меня есть 1294 столбца с каждого столбцаимеет несколько категориальных переменных.

Теперь я хочу уменьшить их, прежде чем использовать какие-либо методы уменьшения размеров.

Каков наилучший вариант выбора наиболее эффективных переменных?
Например;одна категориальная переменная имеет два ответа «да» и «нет».Возможно ли, чтобы столбец «да» имел существенное значение, а столбцу «нет» нечего было объяснить?Вы бы отбросили вопрос (столбцы «да» и «нет») или просто столбец «нет»?

Заранее спасибо.

Franco Piccolo · Answer 1 · 20 декабря 2018

На sklearn вы можете использовать sklearn.feature_selection.SelectFromModel, что позволит вам подогнать модель под все ваши функции и выбрать только те функции, которые имеют большее значение в этой модели, например RandomForest.Метод get_support() дает вам важные функции.

from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

clf = RandomForestClassifier()
sfm = SelectFromModel(clf)
sfm.fit(X,y)

sfm.get_support()

Выбор объектов в наборе двоичных данных (категориальный)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Выбор объектов в наборе двоичных данных (категориальный)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы