Нужно ли обрабатывать фиктивные переменные-ловушки вручную в регрессии или sklearn это сделает? - PullRequest
0 голосов
/ 05 июня 2018

Я знаю, что мы должны в горячем виде кодировать категориальные данные перед тренировкой машинного алгоритма обучения.но мой вопрос: нужно ли удалять один столбец вручную, или sklearn сделает это?

Ответы [ 2 ]

0 голосов
/ 06 июня 2018

Я предполагаю, что вы хотите удалить один столбец и для недвоичных категориальных функций, чтобы избежать мультиколлинеарности, которая может вызвать проблемы для линейных моделей.Это так же просто, как предоставить drop_first=True аргумент pd.get_dummies().Кажется, что sklearn.preprocessing.OneHotEncoder не имеет простого интерфейса для этого, и в любом случае его использование сложно, так как категориальные особенности должны быть заранее закодированы в int.

0 голосов
/ 05 июня 2018

Нет смысла удалять столбец с числом nunique больше 2. Поскольку каждый столбец будет представлять собой фиктивную переменную.Я предполагаю, что вы горячо кодируете двоичный столбец.Вместо этого используйте кодировщик этикеток sklearn.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...