У меня есть матрица предиктора 10000 X 3000 (10000 выборок и 3000 функций). Я разделил данные на обучение и тестирование. Я применил PCA, чтобы уменьшить размерность матрицы предиктора (для объясненной дисперсии в 95%), это уменьшило число функций до 28. Затем я применил линейную регрессию и рассчитал коэффициент корреляции и среднеквадратичное отклонение.
Я использовал другую матрицу предикторов 10000 X 3500 (больше функций теперь, больше предикторов) и сделал то же самое, что и выше. Когда я сравнил коэффициент корреляции и RMSE, я обнаружил, что последний (где использовалось больше предикторов) имеет более низкую корреляцию и более высокий RMSE. Я проверил это в нескольких случаях.
Мне интересно, почему добавление большего количества предикторов снижает точность моделей. Не должно ли больше предикторов повысить точность модели? или это проблема переоснащения?