Используя patsy
, я заметил, что он иногда именовал фиктивные переменные с T
и без T
в других случаях. И сегодня я понял, что T
присоединяется, когда постоянный член присутствует в уравнении регрессии, а не T
без постоянного члена. Например, сравните z[T.1]
, z[0]
, z[1]
, обозначенное OUTPUT
в следующем коде.
import pandas as pd
import patsy
data = {'z': ['1', '0', '0'],
'y': [150, 200, 50],
'x': [200, 210, 90]}
df = pd.DataFrame(data)
# with constant -----------------------
form_const = 'y ~ x + z'
y_const, X_const = patsy.dmatrices(form_const, df, return_type='dataframe')
print(X_const.columns.tolist())
# ['Intercept', 'z[T.1]', 'x'] <- OUTPUT
# withOUT constant --------------------
form_no_const = 'y ~ -1 + x + z'
y_no_const, X_no_const = patsy.dmatrices(form_no_const, df, return_type='dataframe')
print(X_no_const.columns.tolist())
# ['z[0]', 'z[1]', 'x'] <- OUTPUT
Вопросы
Какова роль T
? Это просто указывает на наличие постоянного члена? Если так, разве это не избыточно, учитывая, что мы всегда можем видеть наличие / отсутствие постоянного члена? Есть ли другие роли?
Ваше понимание ценится заранее.