Мой DF выглядит примерно так
age job marital education balance housing Duration_revised campaign response
54 management married secondary 29 yes 4.35 1 0
24 management single primary 3242 no 1.35 5 0
...
Я пытаюсь запустить регрессию, подобную stata, с определенными переменными, являющимися обычными переменными с плавающей запятой x (возраст, баланс, длительность) и определенными строковыми переменными, которые будут использоваться в качестве фиксированных эффектов (работа, семейное положение, образование, кампания) для объяснения фиктивной переменной реакции. Пока у меня есть это
from sklearn import linear_model
= df[['age','balance','Duration Revised','campaign']]
Y = df['response']
# with sklearn
regr = linear_model.LinearRegression()
regr.fit(X, Y)
print('Intercept: \n', regr.intercept_)
print('Coefficients: \n', regr.coef_)
X = sm.add_constant(X) # adding a constant
model = sm.OLS(Y, X).fit()
predictions = model.predict(X)
print_model = model.summary()
print(print_model)
Но что бы я ни пытался, я не могу придумать способ включить другие фиксированные эффекты. Любые идеи? Это возможно даже в python?