Переменная с очень маленьким коэффициентом Пирсона оказывает большее положительное влияние на производительность модели ML, чем переменная с большим Пирсоном - PullRequest
0 голосов
/ 28 марта 2020

Я сделал несколько моделей машинного обучения, используя библиотеку Python scikitlearn, и обнаружил для меня странную ситуацию с реальной важностью некоторых переменных (функций) для модели ML. Я обнаружил, что переменная с меньшим коэффициентом Пирсона имеет большее значение для модели ML (когда исключают переменную из модели с использованием принципа обратного исключения), чем переменные с более высоким коэффициентом Пирсона.

Ниже я отправляю реальные результаты трех моделей, где сначала модель включает в себя все три переменные, а две другие модели исключают некоторые переменные (- означает, что переменная исключает). Я использую метод Random Forest.

Model Name           MAE (Mean Absolute Error)

ModelV1V2V3          0.92
ModelV1V2-           3.86
ModelV1-V3           2.96

PearsonV1=0.99,  PearsonV1=0.82,  PearsonV3=**0.02**

Когда я исключаю переменную, которая не имеет значения, основываясь на Пирсоне (0,02), и я получаю модель с лучшей производительностью по сравнению с моделью, которая включает в себя другую переменную (V2), которая имеет гораздо более высокую Пирсон (0,82). Почему? Пожалуйста, помогите мне объяснить эту ситуацию. Есть ли какое-либо объяснение в литературе или аналогичный случай?

...