Кодирование категориального столбца с множеством уникальных значений для регрессии - PullRequest
0 голосов
/ 17 апреля 2020

Недавно я получил постановку задачи, в которой я должен выполнить кодирование для категориального столбца с множеством уникальных значений для регрессии.

Формулировка проблемы гласит: Предполагается, что есть категорический столбец «pin_code», и он содержит 15000 уникальных значений. Что нужно сделать для его кодирования? Поскольку OneHotEncoding создаст 15000 уникальных значений, его использование не будет экономически эффективным.

Любое руководство будет оценено.

Ответы [ 2 ]

0 голосов
/ 18 апреля 2020

Что на самом деле означает pin_code?

Если каждый pin_code имеет только одно или несколько вхождений, было бы лучше преобразовать эту функцию в более общие c функции. И чтобы сделать разумное преобразование, вам нужно знать, что означает pin_code.

0 голосов
/ 17 апреля 2020

Вам следует искать альтернативы кодировке Onehot, в вашем случае вы можете попробовать сопоставить редкие значения с «другими», что является простым способом реализации, и это просто, вы можете найти больше об этом в этой статье: https://medium.com/gett-engineering/handling-rare-categorical-values-in-pandas-d1e3f17475f0

Другой способ, которым вы можете придумать, - это использование методов встраивания слов, которые могут помочь в такой ситуации.

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...