Как я могу определить переменные по группам в трусиках? - PullRequest
0 голосов
/ 19 декабря 2018

для регрессии Я хочу вычесть специфические для группы средние из (многих) правых переменных (они являются взаимодействиями).

Без групповой специфичности это, конечно, легко.

y, X = dmatrices('lhs ~ center(x1 * k1)', df)

Как я могу сделать это с помощью групповых средств?Проблема в том, что в правой части есть много терминов взаимодействия, которые я не могу наивно создать заранее.

Поэтому я хотел бы сделать что-то вроде этого заранее:

df['x1_times_k1'] = df['x1'] * df['k1']
df['x1_times_k1_centered'] = df.groupby('group')['x1_times_k1'].transform('mean')

y, X = dmatrices('lhs ~ x1_times_k1_centered', df)

Но это не будетВозможны ли какие-либо предложения?

РЕДАКТИРОВАТЬ В качестве альтернативы: есть ли способ стандартизировать данные по группам в Scikit?

https://scikit -learn.org / stable / modules / generate / sklearn.preprocessing.StandardScaler.html # sklearn.preprocessing.StandardScaler

...