Как узнать, когда вам нужно использовать pd.get_dummies? - PullRequest
0 голосов
/ 15 апреля 2019

Я использую pd.get_dummies, и я хотел знать: в каком случае мы можем использовать это?

Я использую это для логистической регрессии, но я бы знал в целом.

Чтобы показатьВы пример, я сделал модель в обоих случаях, я получил эти результаты:

Это мои коэффициенты, когда я использую pd.get_dummies (это не все из них, я покажу вам только категориальные)

http://image.noelshack.com/fichiers/2019/16/1/1555326598-dummy.png

(я знаю, что вы можете удалить одну модальность по переменной, из-за коллинеарности, я просто пропускаю это, потому что это не главное)

Как видите, легко интерпретируемый,Вы можете сделать нечетное соотношение, сравнить модальности и так далее.Но это добавляет столько возможностей

И это мои коэффициенты, когда я не использую pd.get_dummies

http://image.noelshack.com/fichiers/2019/16/1/1555326863-sans-dummy.png

Кто-то однажды сказал мне, что пакеты в машинном обучении могутобеспечить себя пустышкой.Но это не похоже на случай здесь.Может я что-то не так делаю?

Вот фрагмент кода, который я использовал для этого:

from sklearn.linear_model import LogisticRegression
logit = LogisticRegression( penalty ='l1') 
titan_logit=logit.fit(T2_train, z2_train)

coefficients = pd.concat([pd.DataFrame(T2_train.columns),pd.DataFrame(np.transpose(titan_logit.coef_))], axis = 1)

Итак, я запутался, когда мне нужно использовать pd.get_dummies и когда я нене нужно

Для меня коэффициент без пустышки менее полезен, чем когда вы используете pd.get_dummies.Но с pd.get_dummies вы добавляете больше переменных.

Любые советы?Пояснения?

...