Я использую машинное обучение для классификации пар данных в совпадающие или не совпадающие классы. В каждой из этих пар данных у меня есть функция с именем company (наряду с 23 другими функциями), которая содержит n названий компаний с одной стороны и одно и то же сокращение компании с другой. Таким образом, пара выглядит следующим образом:
Теперь, как вы можете видеть, я не могу использовать однократное кодирование для компании, поскольку существует бесчисленное множество компаний (высокая мощность ) и их сокращения. В этом случае, как мне кодировать эту категориальную особенность? Также, как правило, в машинном обучении высокие кардинальные характеристики не так важны и могут быть легко отброшены, но в моей проблеме это очень важно. Любая помощь в этом будет ценной. Спасибо