алгоритм сокращения / объединения номинальных и порядковых категорий - PullRequest
1 голос
/ 11 сентября 2011

Я получаю наборы данных, в которых несколько переменных имеют> 10 категорий (некоторые порядковые / некоторые номинальные), и я подозреваю, что некоторые категории могут быть объединены как для упрощения представления, так и для получения достаточного количества событий для анализа.Это можно / нужно делать с априорным знанием, но алгоритм, упрощающий этот процесс, будет очень кстати.Существует ли такой алгоритм?Реализовано ли это в R?

edit:

data("GBSG2", package = "ipred")
cut(GBSG2$tsize,seq(0,100,10))->GBSG2$size

Теперь я хотел бы выяснить, можно ли объединить любую из категорий и какие категории в размере GBSG2 $ или в Tgrade GBSG2 $ беззначительная потеря информации в их способности предсказать состояние CBS GBSG2 $.Я знаю, что мог бы сделать это вручную, объединив несколько категорий в две переменные, запустив логистическую регрессию и сравнив результаты до и после объединения переменных вручную, но есть ли другие методы?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...