Выбор подмножества с LASSO, включающим категориальные переменные - PullRequest
0 голосов
/ 07 сентября 2018

Я запустил алгоритм LASSO для набора данных, который имеет несколько категориальных переменных. Когда я использовал функцию model.matrix () для независимых переменных, он автоматически создавал фиктивные значения для каждого факторного уровня.

Например, у меня есть переменная "worker_type", которая имеет три значения: FTE, contr, other. Здесь ссылка на модальность "FTE".

Некоторые другие категориальные переменные имеют больше или меньше уровней факторов.

Когда я выводил результаты коэффициентов из LASSO, я заметил, что у worker_typecontr и worker_typeother оба коэффициента равны нулю. Как я должен интерпретировать результаты? Какой коэффициент для FTE в этом случае? Должен ли я просто взять эту переменную из формулы?

1 Ответ

0 голосов
/ 08 сентября 2018

Возможно, этот вопрос больше подходит для Перекрестная проверка .

Регрессия Риджа и Лассо - оба метода «усадки», обычно используемые для работы с пространством предикторов высокой размерности.

Тот факт, что ваша регрессия Лассо уменьшает некоторые бета-коэффициенты до нуля, указывает на то, что Лассо делает именно то, для чего он предназначен! По своему математическому определению Лассо предполагает, что число коэффициентов действительно равно нулю. Интерпретация коэффициентов, которые стремятся к нулю, заключается в том, что эти предикторы не объясняют никакой дисперсии в ответе по сравнению с ненулевыми предикторами.

Почему Лассо сжимает некоторые коэффициенты до нуля? Нам нужно выяснить, как выбираются коэффициенты. Лассо - это, по сути, проблема множественной линейной регрессии, которая решается путем минимизации остаточной суммы квадратов, плюс специальный штрафной член L1, который сжимает коэффициенты до 0. Это минимизированный термин:

enter image description here

где p - количество предикторов, а lambda - неотрицательный параметр настройки. Когда lambda = 0 , штрафной член выпадает, и вы получаете множественную линейную регрессию. Когда лямбда становится больше, у вашей модели будет меньше смещения, но больше дисперсия (т. Е. Она будет подвергаться переоснащению).

Следует использовать метод перекрестной проверки для выбора соответствующего параметра настройки лямбда . Возьмите сетку из значений lambda и вычислите ошибку перекрестной проверки для каждого значения lambda и выберите значение параметра настройки, для которого ошибка перекрестной проверки является самой низкой.

Лассо полезно в некоторых ситуациях и помогает в создании простых моделей, но особое внимание следует уделить природе самих данных и тому, является ли более подходящим другой метод, такой как регрессия Риджа или регрессия OLS, с учетом того, как многие предикторы должны быть действительно связаны с ответом.

Примечание. См. Уравнение 6.7 на стр. 221 в разделе «Введение в статистическое обучение», которое можно бесплатно скачать здесь .

...