Я новичок в машинном обучении. У меня есть большой набор данных с большим количеством категориальных данных. Данные являются номинальными. Я хочу применять алгоритмы, такие как SVM и дерево решений, с Python и scikit-learn для поиска шаблонов в данных.
Моя проблема в том, что я не знаю, как лучше всего обрабатывать такие данные. Я много читал об One-Hot Encoding. Примеры все довольно простые, как с тремя разными цветами. В моих данных есть около 30 различных категорий. И в этих чертах около 200 разных «ценностей».
Если я использую простое кодирование в горячем режиме, фрейм данных становится действительно большим, и я вряд ли смогу использовать какой-либо алгоритм для данных, потому что у меня кончился оперативная память.
Так какой здесь лучший подход? Использовать базу данных sql для закодированных таблиц? Как это делается в «реальном» мире?
Заранее спасибо за ответы!