FeatureHasherVs OneHotEncoding против матриц дизайна в патсе против StatsModel - PullRequest
0 голосов
/ 11 октября 2019

Я хочу приспособить модели машинного обучения к категориальным данным. Я перепробовал все методы, упомянутые в названии.

За исключением функции Hasher, у любого другого метода есть проблема с тестовыми данными. Либо новая категория появляется в тестовых данных, либо существующая категория не присутствует в тестовых данных, что заканчивается различными измерениями для x_train и x_test.

Какой метод лучше всего использовать в производстве? Как использовать взаимодействия с Feature Hasher?

Patsy: новые уровни в категориальных полях в тестовых данных

Этот метод выдает следующую ошибку: PatsyError: Ошибка преобразования данных в категориальные: наблюдение со значением 'new_val' не соответствует ни одному из ожидаемых уровней

Я попытался добавить 'o' в уникальный список. Там нет ошибки, но он дал x_test с различными измерениями.

Везде, где я нахожу людей, предлагающих сделать кодирование до разделения данных, но мои тестовые данные реальны. К нему нельзя получить доступ раньше.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...