Pandas Pivot и Group By не совпадают - PullRequest
0 голосов
/ 15 октября 2019

Якобы результат подсчета двух функций ниже должен совпадать. Однако по какой-то причине они этого не делают.

pd.pivot_table(df[['gender','age_group', 'uuid']], index='gender', columns='age_group', aggfunc='count')

df.groupby(['gender', 'age_group']).count()[['uuid']]

Кажется, что функция pd.pivot_table занижена, как будто в столбце uuid есть нули. В pivot_table есть столбец NaN, которого там быть не должно, и я думаю, что все эти пропущенные значения будут:

age_group   NaN (24.964, 30.0]  (30.0, 35.0]    (35.0, 40.0]    (40.0, 45.0]    (45.0, 50.0]    (55.0, 60.0]

Однако функция groupby, кажется, считаетправильно, насколько я могу сказать. Любая идея, что может быть причиной этого?

Я использую Python 3.7, и это несколько ново для меня (из 3.4) на случай, если это может быть проблемой.

1 Ответ

1 голос
/ 15 октября 2019

pivot_table падает nan по умолчанию. Попробуйте передать dropna=False в pivot_table, если что-то изменится.

...