почему добавление большего количества предикторов к линейной регрессии снижает точность модели? - PullRequest
0 голосов
/ 14 апреля 2020

У меня есть матрица предиктора 10000 X 3000 (10000 выборок и 3000 функций). Я разделил данные на обучение и тестирование. Я применил PCA, чтобы уменьшить размерность матрицы предиктора (для объясненной дисперсии в 95%), это уменьшило число функций до 28. Затем я применил линейную регрессию и рассчитал коэффициент корреляции и среднеквадратичное отклонение.

Я использовал другую матрицу предикторов 10000 X 3500 (больше функций теперь, больше предикторов) и сделал то же самое, что и выше. Когда я сравнил коэффициент корреляции и RMSE, я обнаружил, что последний (где использовалось больше предикторов) имеет более низкую корреляцию и более высокий RMSE. Я проверил это в нескольких случаях.

Мне интересно, почему добавление большего количества предикторов снижает точность моделей. Не должно ли больше предикторов повысить точность модели? или это проблема переоснащения?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...