Работает ли линейная регрессия с категориальной независимой переменной и непрерывно зависимой переменной? - PullRequest
0 голосов
/ 16 октября 2018

У меня есть набор данных, где:

X1 - категориальная независимая переменная

X2 - непрерывная независимая переменная

y - непрерывная зависимая переменная

И Iищу использовать X1 и X2 для предсказания y.Подходит ли для этого линейная регрессия (имеет ли смысл регрессировать по категориальной независимой переменной?)?Если да, то как я могу использовать линейную регрессию, когда X1 является категориальной независимой переменной (например, цвет глаз)?

Должен ли я создать отдельную модель линейной регрессии для каждой из категорий в X1?Или попытаться создать модель множественной линейной регрессии?

Если посмотреть в Интернете, то в основном имеются ресурсы, касающиеся непрерывной независимой -> непрерывной зависимости (линейная регрессия) или непрерывной независимой -> категориальной зависимости (логистическая регрессия).

Буду признателен за указание на любые ресурсы / инструменты, которые могут мне помочь.

1 Ответ

0 голосов
/ 16 октября 2018

Вы можете использовать линейную регрессию, но сначала вам нужно сначала закодировать X1 как последовательность переменных.

Вот простой пример использования метода «фиктивного кодирования»:

┏━━━━━━━━━━━━┳━━━━━┳━━━━━┓
┃ Eye Colour ┃ x11 ┃ x12 ┃
┣━━━━━━━━━━━━╋━━━━━╋━━━━━┫
┃ Blue       ┃  0  ┃  0  ┃
┣━━━━━━━━━━━━╋━━━━━╋━━━━━┫
┃ Brown      ┃  1  ┃  0  ┃
┣━━━━━━━━━━━━╋━━━━━╋━━━━━┫
┃ Green      ┃  0  ┃  1  ┃
┗━━━━━━━━━━━━┻━━━━━┻━━━━━┛

Вот статья, которая объясняет различные методы кодирования:

https://stats.idre.ucla.edu/spss/faq/coding-systems-for-categorical-variables-in-regression-analysis-2/

...