Я хочу приспособить модели машинного обучения к категориальным данным. Я перепробовал все методы, упомянутые в названии.
За исключением функции Hasher, у любого другого метода есть проблема с тестовыми данными. Либо новая категория появляется в тестовых данных, либо существующая категория не присутствует в тестовых данных, что заканчивается различными измерениями для x_train и x_test.
Какой метод лучше всего использовать в производстве? Как использовать взаимодействия с Feature Hasher?
Patsy: новые уровни в категориальных полях в тестовых данных
Этот метод выдает следующую ошибку: PatsyError: Ошибка преобразования данных в категориальные: наблюдение со значением 'new_val' не соответствует ни одному из ожидаемых уровней
Я попытался добавить 'o' в уникальный список. Там нет ошибки, но он дал x_test с различными измерениями.
Везде, где я нахожу людей, предлагающих сделать кодирование до разделения данных, но мои тестовые данные реальны. К нему нельзя получить доступ раньше.