Логистическая регрессия Python не работает для многих категорий - PullRequest
0 голосов
/ 24 сентября 2019

Я пытаюсь предсказать, можно ли было избежать посещения ER с учетом некоторых данных.Одной из моих переменных-предикторов является Код диагностики, который может принимать до 14000 различных значений.Скажем, мои тренировочные данные имеют уникальный счет 3000 кодов диагностики.Я делаю горячее кодирование и тренирую модель логистической регрессии.Все идет нормально.Теперь мои будущие данные поступают с утверждениями, которые содержат 1200 диагностических кодов, а некоторые могут даже не относиться к набору 3000, который у меня был в моих данных обучения.Как я могу прогнозировать для этих новых данных, используя мою модель?Это терпит неудачу, поскольку это ожидает точно такое же количество столбцов после горячего кодирования.Пожалуйста, сообщите.

На данном этапе я не пытаюсь перейти к кодированию с использованием нейронной сети, если этого можно избежать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...