У меня есть Pandas Dataframe, который я пытаюсь использовать для обучения регрессора Scikit-Learn. Тем не менее, он имеет несколько номинальных полей с произвольным числом значений, и одним из основных ограничений Scikit-learn является невозможность анализа номинальных и порядковых значений. Например, у меня есть один столбец «zip», в котором хранится стандартный почтовый ZIP, который может иметь тысячи различных значений.
Я знаю, что у него есть число кодировщиков , но документ довольно плохое, и это, кажется, подразумевает, что вы должны создать ручной словарь, отображающий каждое номинальное значение в число с плавающей запятой, что нецелесообразно для большинства приложений. что я вручную создаю карту для каждого столбца и значения?
Даже если я могу найти работающий кодер, как мне сохранить кодировку, чтобы она оставалась с обученной моделью? Какова лучшая практика для этого? Сериализация кодера вместе с моделью, чтобы вы могли правильно кодировать будущие данные, которые вы хотите предсказать?