Question

Недавно я получил постановку задачи, в которой я должен выполнить кодирование для категориального столбца с множеством уникальных значений для регрессии.

Формулировка проблемы гласит: Предполагается, что есть категорический столбец «pin_code», и он содержит 15000 уникальных значений. Что нужно сделать для его кодирования? Поскольку OneHotEncoding создаст 15000 уникальных значений, его использование не будет экономически эффективным.

Любое руководство будет оценено.

Ni Yi Puay · Answer 1 · 18 апреля 2020

Что на самом деле означает pin_code?

Если каждый pin_code имеет только одно или несколько вхождений, было бы лучше преобразовать эту функцию в более общие c функции. И чтобы сделать разумное преобразование, вам нужно знать, что означает pin_code.

nassim · Answer 2 · 17 апреля 2020

Вам следует искать альтернативы кодировке Onehot, в вашем случае вы можете попробовать сопоставить редкие значения с «другими», что является простым способом реализации, и это просто, вы можете найти больше об этом в этой статье: https://medium.com/gett-engineering/handling-rare-categorical-values-in-pandas-d1e3f17475f0

Другой способ, которым вы можете придумать, - это использование методов встраивания слов, которые могут помочь в такой ситуации.

Надеюсь, это поможет.

Кодирование категориального столбца с множеством уникальных значений для регрессии

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Кодирование категориального столбца с множеством уникальных значений для регрессии

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы