Question

Я знаю, что мы должны в горячем виде кодировать категориальные данные перед тренировкой машинного алгоритма обучения.но мой вопрос: нужно ли удалять один столбец вручную, или sklearn сделает это?

Mykhailo Lisovyi · Answer 1 · 06 июня 2018

Я предполагаю, что вы хотите удалить один столбец и для недвоичных категориальных функций, чтобы избежать мультиколлинеарности, которая может вызвать проблемы для линейных моделей.Это так же просто, как предоставить drop_first=True аргумент pd.get_dummies().Кажется, что sklearn.preprocessing.OneHotEncoder не имеет простого интерфейса для этого, и в любом случае его использование сложно, так как категориальные особенности должны быть заранее закодированы в int.

Shaz · Answer 2 · 05 июня 2018

Нет смысла удалять столбец с числом nunique больше 2. Поскольку каждый столбец будет представлять собой фиктивную переменную.Я предполагаю, что вы горячо кодируете двоичный столбец.Вместо этого используйте кодировщик этикеток sklearn.

Нужно ли обрабатывать фиктивные переменные-ловушки вручную в регрессии или sklearn это сделает?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нужно ли обрабатывать фиктивные переменные-ловушки вручную в регрессии или sklearn это сделает?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы