Кодирование категориальных переменных, таких как «Имена состояний» - PullRequest
1 голос
/ 13 января 2020

У меня есть столбец категории с именами состояний. Я не уверен, какой тип категориального кодирования мне придется выполнить, чтобы преобразовать их в тип Numeri c.

Существует 83 уникальных имени состояния.

Label Encoder используется для порядковых категориальных переменных, но OneHot увеличит количество столбцов, поскольку существует 83 уникальных имени состояния.

Есть ли что-нибудь еще, что я могу попробовать?

1 Ответ

1 голос
/ 13 января 2020

Я бы использовал scikit's OneHotEncoder (https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) или CategoryoricalEncoder с кодировкой, установленной в 'onehot'. Он автоматически находит уникальные значения для каждого объекта и обрабатывает его в один горячий вектор. Это увеличивает входную размерность для этой функции, но это необходимо, если вы выполняете какую-либо работу с данными. Если вы преобразуете объект в порядковое целое число (т. Е. Только в одно целое), а не в вектор двоичных значений, алгоритм может сделать неверные выводы между двумя (возможно, совершенно отдельными) категориальными значениями, которые просто оказываются близко друг к другу в категориальном пространстве. ,

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...