удаление лишних столбцов при использовании get_dummies - PullRequest
0 голосов
/ 04 мая 2018

Привет, у вас есть pandas dataframe df, содержащий категориальные переменные.

df=pandas.DataFrame(data=[['male','blue'],['female','brown'],
['male','black']],columns=['gender','eyes'])

df
Out[16]: 
   gender   eyes
0    male   blue
1  female  brown
2    male  black

используя функцию get_dummies, я получаю следующий фрейм данных

df_dummies = pandas.get_dummies(df)

df_dummies
Out[18]: 
   gender_female  gender_male  eyes_black  eyes_blue  eyes_brown
0              0            1           0          1           0
1              1            0           0          0           1
2              0            1           1          0           0

Все столбцы gender_female и gender_male содержат одинаковую информацию, поскольку исходный столбец может принимать двоичное значение. Есть ли (умный) способ сохранить только один из 2 столбцов?

ОБНОВЛЕНО

Использование

df_dummies = pandas.get_dummies(df,drop_first=True)

дал бы мне

df_dummies
Out[21]: 
   gender_male  eyes_blue  eyes_brown
0            1          1           0
1            0          0           1
2            1          0           0

но я бы хотел удалить столбцы, для которых изначально у меня было только 2 возможности

Желаемый результат должен быть

df_dummies
Out[18]: 
   gender_male  eyes_black  eyes_blue  eyes_brown
0  1           0          1           0
1  0           0          0           1
2  1           1          0           0

Ответы [ 2 ]

0 голосов
/ 04 мая 2018

Вы можете использовать itertools.combinations, чтобы найти все пары столбцов, тогда любая потенциально избыточная пара столбцов будет такой, где для каждой строки один столбец равен True, а другой - False - то есть XOR:

import pandas as pd
from itertools import combinations

df = pd.DataFrame(data=[['male','blue'],['female','brown'],['male','black']],
                  columns=['gender','eyes'])

dummies = pd.get_dummies(df)

for c1, c2 in combinations(dummies.columns, 2):
    if all(dummies[c1] ^ dummies[c2]):
        print(c1,c2)

Однако, это также замечает, что в ваших примерах все женщины имеют карие глаза, поэтому мы печатаем следующее:

gender_female gender_male
gender_male eyes_brown
0 голосов
/ 04 мая 2018

Да, вы можете использовать аргумент dropfirst:

drop_first=True

Из документации :

pd.get_dummies(pd.Series(list('abcaa')), drop_first=True)
   b  c
0  0  0
1  1  0
2  0  1
3  0  0
4  0  0

Чтобы иметь все фиктивные столбцы для eyes и один для gender, используйте это:

df = pd.get_dummies(df, prefix=['eyes'], columns=['eyes'])
df = pd.get_dummies(df,drop_first=True)

Выход:

       eyes_black  eyes_blue  eyes_brown  gender_male
0           0          1           0            1
1           0          0           1            0
2           1          0           0            1

Более общее:

   gender   eyes    heigh
0    male   blue     tall
1  female  brown    short
2    male  black  average

for i in df.columns:
    if len(df.groupby([i]).size()) > 2:
         df = pd.get_dummies(df, prefix=[i], columns=[i])
df = pd.get_dummies(df, drop_first=True)

Выход:

   eyes_black  eyes_blue  eyes_brown  heigh_average  heigh_short  heigh_tall  \
0           0          1           0              0            0           1   
1           0          0           1              0            1           0   
2           1          0           0              1            0           0    

   gender_male  
0            1  
1            0  
2            1
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...