Обнаружение коррелированных факторов в кадре данных до подбора модели - PullRequest
0 голосов
/ 12 апреля 2020

Я строю довольно сложный GLM на большом наборе данных, используя revoScaleR :: rxGlm () вместо базовой функции R glm ().

Набор данных имеет ~ 50 категориальных (факторных) переменных. Некоторые факторы имеют только 2 или 3 уровня, а другие имеют десятки. Некоторые из них упорядочены (например, возраст), другие не имеют естественного порядка (например, страна).

У меня были некоторые проблемы с подгонкой модели (неспособность сходиться и / или странно выглядящие оценки параметров модели), вызванные некоторыми близкими корреляции между некоторыми из факторов, включенных в формулу модели. Я могу справиться с этим нормально, так как они возникают (и rxGlm () показывает, есть ли проблемы с коллинеарностью при подгонке), но я хотел бы знать, есть ли способ обнаружить их в данных, прежде чем я даже начну процесс моделирования. Это может сэкономить мне много времени.

У кого-нибудь есть совет, пожалуйста?

Спасибо.

...