Как определить ключевые драйверы в наборе данных с высокой мультиколлинеарностью? - PullRequest
0 голосов
/ 01 февраля 2020

У меня большой набор данных с почти таким же количеством переменных, что и наблюдения. Тем не менее, существует высокая мультиколлинеарность. Что я хотел бы сделать, это определить ключевые драйверы (которые также могут быть комбинацией переменных), которые влияют на зависимую переменную. Как эксперт по предметам это (со временем) относительно простое упражнение, но я бы хотел автоматизировать это.

Какой будет хороший алгоритм для изучения?

Я думал о PCA, но не уверен, что результат можно легко интерпретировать?

...