Объясните «мультиколлинеарность» в обработке данных - PullRequest
0 голосов
/ 29 апреля 2020

Может ли кто-нибудь объяснить простыми словами термин Multi-col-linear из обработки данных машинного обучения . Поскольку термин очень важен в отношении обработки данных и имеет запутанные объяснения.

Поэтому, пожалуйста, объясните это простыми словами, поскольку я новичок в ML, используя python.

1 Ответ

1 голос
/ 29 апреля 2020

Мультиколлинеарность означает, что две или более ваших переменных предиктора имеют тесную линейную связь друг с другом. Это может быть проблематично c в моделях обучения, так как вы в основном тренируетесь на двух версиях одной и той же переменной, которая может искажать результаты и гиперпараметры, если не обрабатываться правильно. Это особенно проблематично * с использованием моделей на основе регрессии c.

Примером может быть количество обзоров и количество загрузок для видеоигры. Возможно, мы пытаемся предсказать цену, и регрессия по количеству обзоров и загрузок будет несколько избыточной, поскольку, как правило, чем больше людей играет в игру, тем больше отзывов.

...