Недавно я получил постановку задачи, в которой я должен выполнить кодирование для категориального столбца с множеством уникальных значений для регрессии.
Формулировка проблемы гласит: Предполагается, что есть категорический столбец «pin_code», и он содержит 15000 уникальных значений. Что нужно сделать для его кодирования? Поскольку OneHotEncoding создаст 15000 уникальных значений, его использование не будет экономически эффективным.
Любое руководство будет оценено.