Как я могу сгруппировать разные уровни категориального предиктора X, используя бинарную переменную ответа Y - PullRequest
0 голосов
/ 16 марта 2020

Я использую регрессию Logisti c для прогнозирования бинарной переменной ответа Y (0/1) с использованием нескольких количественных и категориальных переменных. Перед обучением модели я хотел бы сгруппировать различные уровни категориального предиктора X, потому что у него слишком много уровней (например, сокращение количества уровней с 12 до 2 или 3).

Я хочу, чтобы уровни были сгруппированы, используя двоичную переменную ответа Y, то есть конечные группы должны отличаться друг от друга в отношении Y. Например, если уровни X сгруппированы в 2 группы A и B, тогда показатель Y = 1 всех наблюдений, чья переменная X является уровнем из группы A , должен значительно отличаться от показателя Y = 1 всех наблюдений, чья переменная X является уровнем из группы A .

Какой алгоритм может сделать такая группировка? И есть ли пакет в R?

Я не против, если алгоритм требует желаемого количества групп в качестве ввода.

...