Я использовал одну горячую кодировку, но это просто увеличивает размерный размер (проклятие размерности). Я также сделал это и преобразовал в основные компоненты, однако это хорошо, но мало что говорит мне о выбранных принципах. Это также не всегда работает, когда мне нужен порядковый подход к таким переменным, как уровень образования.
Мой вопрос:
Какие общие методы на рабочем месте вы используете для работы с наборами данных, которые содержат какие-то категориальные данные или почти все категориальные данные?
Помните, что данные могут быть номинальными или порядковыми.
Спасибо.