Python Select переменных в множественной линейной регрессии - PullRequest
0 голосов
/ 07 марта 2019

У меня есть зависимая переменная y и 6 независимых переменных. Я хочу сделать из этого линейную регрессию. Я использую библиотеку sklearn, чтобы сделать это.

Проблема в том, что некоторые из моих независимых переменных имеют корреляцию более 0,5. Поэтому я не могу иметь их в моей модели одновременно

Я искал бросить интернет, но не нашел никакого решения, чтобы выбрать лучший набор независимых переменных для рисования линейной регрессии и вывода выбранных переменных.

Ответы [ 2 ]

2 голосов
/ 07 марта 2019

Если вы видите, что у вас есть корреляция между независимыми переменными.Вы должны рассмотреть, чтобы удалить их.

Я вижу, вы работаете с scikit-learn.Если вы не хотите делать какие-либо функции вручную, вы всегда можете использовать один из методов выбора функций в scikit-learns feature_selection module .Существует множество способов автоматического удаления функций, и вам необходимо выполнить перекрестную проверку, чтобы определить, какой из них лучше всего подходит для вашей проблемы.

1 голос
/ 07 марта 2019

Вы, вероятно, ищете модель проверки в k-кратном размере.

Идея состоит в том, чтобы случайным образом выбирать ваши функции и иметь возможность проверять их друг против друга.

Идея состоит в том,обучить вашу модель с вашим выбором функций на (k-1) разделах ваших данных.И проверить его по последнему разделу.Вы делаете это для каждого раздела и берете среднее значение вашей оценки (например, MAE / RMSE)

Ваша оценка является объективной цифрой для сравнения ваших моделей с вашими вариантами выбора

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...