Я сделал несколько моделей машинного обучения, используя библиотеку Python scikitlearn, и обнаружил для меня странную ситуацию с реальной важностью некоторых переменных (функций) для модели ML. Я обнаружил, что переменная с меньшим коэффициентом Пирсона имеет большее значение для модели ML (когда исключают переменную из модели с использованием принципа обратного исключения), чем переменные с более высоким коэффициентом Пирсона.
Ниже я отправляю реальные результаты трех моделей, где сначала модель включает в себя все три переменные, а две другие модели исключают некоторые переменные (- означает, что переменная исключает). Я использую метод Random Forest.
Model Name MAE (Mean Absolute Error)
ModelV1V2V3 0.92
ModelV1V2- 3.86
ModelV1-V3 2.96
PearsonV1=0.99, PearsonV1=0.82, PearsonV3=**0.02**
Когда я исключаю переменную, которая не имеет значения, основываясь на Пирсоне (0,02), и я получаю модель с лучшей производительностью по сравнению с моделью, которая включает в себя другую переменную (V2), которая имеет гораздо более высокую Пирсон (0,82). Почему? Пожалуйста, помогите мне объяснить эту ситуацию. Есть ли какое-либо объяснение в литературе или аналогичный случай?