Я использую pd.get_dummies, и я хотел знать: в каком случае мы можем использовать это?
Я использую это для логистической регрессии, но я бы знал в целом.
Чтобы показатьВы пример, я сделал модель в обоих случаях, я получил эти результаты:
Это мои коэффициенты, когда я использую pd.get_dummies (это не все из них, я покажу вам только категориальные)
http://image.noelshack.com/fichiers/2019/16/1/1555326598-dummy.png
(я знаю, что вы можете удалить одну модальность по переменной, из-за коллинеарности, я просто пропускаю это, потому что это не главное)
Как видите, легко интерпретируемый,Вы можете сделать нечетное соотношение, сравнить модальности и так далее.Но это добавляет столько возможностей
И это мои коэффициенты, когда я не использую pd.get_dummies
http://image.noelshack.com/fichiers/2019/16/1/1555326863-sans-dummy.png
Кто-то однажды сказал мне, что пакеты в машинном обучении могутобеспечить себя пустышкой.Но это не похоже на случай здесь.Может я что-то не так делаю?
Вот фрагмент кода, который я использовал для этого:
from sklearn.linear_model import LogisticRegression
logit = LogisticRegression( penalty ='l1')
titan_logit=logit.fit(T2_train, z2_train)
coefficients = pd.concat([pd.DataFrame(T2_train.columns),pd.DataFrame(np.transpose(titan_logit.coef_))], axis = 1)
Итак, я запутался, когда мне нужно использовать pd.get_dummies и когда я нене нужно
Для меня коэффициент без пустышки менее полезен, чем когда вы используете pd.get_dummies.Но с pd.get_dummies вы добавляете больше переменных.
Любые советы?Пояснения?