Ищем лучшие способы работы с категориальными данными для машинного обучения - PullRequest
1 голос
/ 09 июля 2020

Я использовал одну горячую кодировку, но это просто увеличивает размерный размер (проклятие размерности). Я также сделал это и преобразовал в основные компоненты, однако это хорошо, но мало что говорит мне о выбранных принципах. Это также не всегда работает, когда мне нужен порядковый подход к таким переменным, как уровень образования.

Мой вопрос:

Какие общие методы на рабочем месте вы используете для работы с наборами данных, которые содержат какие-то категориальные данные или почти все категориальные данные?

Помните, что данные могут быть номинальными или порядковыми.

Спасибо.

1 Ответ

0 голосов
/ 09 июля 2020

Попробуйте использовать хеширование - похоже на OneHot, но меньше измерений, некоторая потеря информации из-за коллизий. Работает для номинальных и порядковых данных:

Подробнее об этом здесь: здесь и здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...