Как адекватно использовать категориальные переменные в линейной регрессии - PullRequest
0 голосов
/ 10 февраля 2020

У меня есть датафрейм с категориальными значениями (по 2-6 категорий в каждом). Например, завод-производитель. Я хочу построить регрессию с помощью линейной регрессии (sklearn.linear_model). Но, насколько я понимаю, у Python нет аналога Factor от R. Модель отказывается работать со строкой. Как мне построить регрессию в этом случае? Есть ли какое-нибудь решение более красивое, чем создание кучи столбцов с 0 и 1 (стиль Excel)?

Кстати, в ols (statsmodels.formula.api) есть относительно красивое решение. Есть что-то похожее для LinearRegression (sklearn.linear_model)?

fit = ols('Price ~ C(Cut) + Carat_weight', data=train).fit()

Спасибо! Извините, если вопрос слишком прост или неясен.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...