Что такое scikit-learn, когда вы включаете все категории категориальных переменных в модель линейной регрессии? - PullRequest
0 голосов
/ 02 апреля 2020

Обычно, если у вас есть категориальная переменная, такая как пол (мужчина / женщина), и вы указали ее значение 0 для мужчины и 1 для женщины, вы не можете включить обе фиктивные переменные в модель линейной регрессии, потому что они были бы совершенно коллинеарными (поскольку 0 и 1 в столбце / переменной Male будут точно предсказывать 1 и 0 в столбце / переменной Female).

Большинство статистических пакетов, таких как Stata, либо выдадут вам предупреждение, либо не позволят запустить модель, как указано, либо автоматически отбросят одну из категорий, вызывающих эту проблему мультиколлинеарности. Таким образом, когда вы смотрите на коэффициенты, которые рассчитываются по модели линейной регрессии, нет коэффициента из категории, которая была отброшена или не включена. Однако, если вы включите все категории категориальной переменной в модель линейной регрессии в scikit-learn, она не только не выдает никаких предупреждений, она показывает коэффициенты для всех категорий.

Автоматически ли вращаются все категории? Например, он отбрасывает 1 категорию c, вычисляет коэффициенты для остальных, отбрасывает следующий и так далее? Я не мог найти ничего в официальной документации, поэтому любая помощь будет принята с благодарностью! Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...