Как кодировать чрезвычайно высокие кардинальные, но важные категориальные особенности в машинном обучении? - PullRequest
0 голосов
/ 06 февраля 2020

Я использую машинное обучение для классификации пар данных в совпадающие или не совпадающие классы. В каждой из этих пар данных у меня есть функция с именем company (наряду с 23 другими функциями), которая содержит n названий компаний с одной стороны и одно и то же сокращение компании с другой. Таким образом, пара выглядит следующим образом:

enter image description here

Теперь, как вы можете видеть, я не могу использовать однократное кодирование для компании, поскольку существует бесчисленное множество компаний (высокая мощность ) и их сокращения. В этом случае, как мне кодировать эту категориальную особенность? Также, как правило, в машинном обучении высокие кардинальные характеристики не так важны и могут быть легко отброшены, но в моей проблеме это очень важно. Любая помощь в этом будет ценной. Спасибо

...