Будет ли корреляция влиять на важность характеристик моделей ML? - PullRequest
0 голосов
/ 09 июля 2019

Я создаю модель xgboost с сотнями функций.Для функций, которые сильно коррелируют (корреляция Пирсона) друг с другом, я думаю использовать значение функции (измерение по усилению), чтобы отбросить объект с низкой важностью.Мой вопрос: 1: Будет ли корреляция влиять / иметь значение предвзятости (измерение по усилению)?2: Есть ли хороший способ удалить сильно коррелированную функцию для моделей ML?

пример: важность a = 120, важность b = 14, corr (a, b) = 0,8.Я думаю отбросить б, потому что его значение = 14.Но правильно ли это?

Спасибо.

1 Ответ

1 голос
/ 09 июля 2019

Корреляция определенно влияет на важность функции.Это означает, что, если функции сильно коррелированы, будет высокий уровень избыточности, если вы сохраните их все.Поскольку две функции взаимосвязаны, значит, изменение одной из них изменит другую.Так что нет необходимости держать их в порядке?Поскольку они, безусловно, представляют друг друга и используют несколько из них, можно надеяться, что вы сможете хорошо классифицировать свои данные.

Таким образом, чтобы удалить сильно коррелированные функции, вы можете:

(1) Использовать PCAчтобы уменьшить размерность, или

(2) Использовать дерево решений для поиска важных функций, или,

(3) Вы можете вручную выбирать функции из своих знаний (если это возможно), которыефункции более перспективны, чтобы помочь вам классифицировать ваши данные, или,

(4) Вы можете комбинировать некоторые функции с новой функцией вручную, так что, говоря о одной функции, можно исключить необходимость указывать другой набор функций каквероятно, могут быть выведены из этой единственной функции.

...