Вопрос об обработке числовых категориальных данных без иерархии - PullRequest
0 голосов
/ 24 октября 2019

Я работаю с набором данных, содержащим 19 функций. Семь из них являются характеристиками номинальной категории, и все эти специфические особенности обладают высокой мощностью (некоторые содержат только 5-30 уникальных значений, но во многих случаях присутствуют сотни или тысячи уникальных значений). Я знаю, что для большинства алгоритмов машинного обучения текстовые категориальные данные должны быть закодированы. Однако, если функция является категориальной, но уже числовой, я должен также их кодировать?

Возможно, нет необходимости, но пример может выглядеть следующим образом:

error code
    23
    404
    6
    ....
    1324
    500

Не кодировать этот столбец через любойСредство, безусловно, будет лучше, если речь идет о размерности, но существует конечное число кодов ошибок, которые могут существовать, и у них нет иерархии. Я боюсь, что, не кодируя, я оставляю внутреннюю иерархию на месте, которая используется по умолчанию в питоне или пандах, и поэтому создаю смещение в моем наборе данных. У меня есть ощущение, что я должен кодировать, но выполнение всех семи из этих функций с помощью быстрого кодирования привело бы меня к 19 функциям и превысило 14 тыс. (Не то, чтобы это относилось к этому вопросу, но я также исследую хеш-кодирование, но мне трудно обдумать это.)

Бонусный вопрос, если кто-то хочет ответить: Если я проверяю коды ошибок, которые появляются на большом количестве машин, и я хочу рассмотреть год изготовления машины, это числовое значение или категоричное? Существует конечное число значений (компания первого года начала производство машин в текущем году), поэтому я предполагаю, что в данном случае это категорично?

...