что делать после объединения числовой функции? - PullRequest
0 голосов
/ 01 июня 2019

Я хочу знать, что делать после того, как я сделал биннинг.Например, одна из особенностей - это возраст.Итак, мои данные [11, 12, 35, 26].

Затем я применяю биннинг размером 10:

bin, имя

[0, 10) -> 1

[10, 20)-> 2

[20, 30) -> 3

[30, 40) -> 4

Тогда мои данные становятся [2, 2, 4, 3].Теперь предположим, что я хочу перевести эти данные в режим линейной регрессии.Стоит ли рассматривать [2, 2, 4, 3] как числовую особенность?Или я должен относиться к ним как к категориальной функции, например, сначала выполнить горячее кодирование, а затем передать его модели?

1 Ответ

1 голос
/ 18 июля 2019

Если вы строите линейную модель, то лучше выбрать одну горячую кодировку этих корзин, чтобы при наличии линейной связи с целью охрана сохраняла ее.

Если выЕсли вы строите модели на основе дерева, например, случайные леса, то вы можете использовать [2, 2, 4, 3] в качестве числовой функции, потому что эти модели нелинейны.

Если вы строите регрессионную модель и не хотитечтобы расширить пространство признаков с помощью ohe, вы можете рассматривать ячейки как категориальную переменную и кодировать эту переменную, используя среднее / целевое кодирование, или кодировать с помощью цифр, следуя целевому среднему значению для бина.

Подробнее опоследние 2 процедуры в этой статье .

Отказ от ответственности: я написал статью.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...