Я строю довольно сложный GLM на большом наборе данных, используя revoScaleR :: rxGlm () вместо базовой функции R glm ().
Набор данных имеет ~ 50 категориальных (факторных) переменных. Некоторые факторы имеют только 2 или 3 уровня, а другие имеют десятки. Некоторые из них упорядочены (например, возраст), другие не имеют естественного порядка (например, страна).
У меня были некоторые проблемы с подгонкой модели (неспособность сходиться и / или странно выглядящие оценки параметров модели), вызванные некоторыми близкими корреляции между некоторыми из факторов, включенных в формулу модели. Я могу справиться с этим нормально, так как они возникают (и rxGlm () показывает, есть ли проблемы с коллинеарностью при подгонке), но я хотел бы знать, есть ли способ обнаружить их в данных, прежде чем я даже начну процесс моделирования. Это может сэкономить мне много времени.
У кого-нибудь есть совет, пожалуйста?
Спасибо.