У меня есть фрейм данных, подобный следующему (здесь подмножество):
df1
ID zone date
0 6a93b747472484e41f969a0ac02b96161eb0af9edb1fe4... 01529224 2020-01-01
1 6a93b747472484e41f969a0ac02b96161eb0af9edb1fe4... 01529224 2020-01-01
2 6a93b747472484e41f969a0ac02b96161eb0af9edb1fe4... 01529224 2020-01-01
3 6a93b747472484e41f969a0ac02b96161eb0af9edb1fe4... 01529224 2020-01-01
4 6a93b747472484e41f969a0ac02b96161eb0af9edb1fe4... 01529224 2020-01-01
Если я посчитаю отдельный идентификатор за день, у меня будет
tmp = df1.groupby(['date']).agg({"ID": pd.Series.nunique}).reset_index()
tmp.head()
date ID
0 2019-12-31 4653
1 2020-01-01 6656
2 2020-01-02 1
Теперь, если я сгруппирую по зонам и дата у меня есть следующее:
distinctID = df1.groupby(['date', "zone"]).agg({"ID": pd.Series.nunique}).reset_index()
date zone ID
0 2019-12-31 00023901 1
1 2019-12-31 00025441 2
2 2019-12-31 00025442 2
3 2019-12-31 00025443 3
4 2019-12-31 00025444 2
Если я подсчитываю ID за каждый день, как у меня:
tmp1 = distinctID.groupby(['date']).agg({"ID": 'sum'}).reset_index()
tmp1.head()
date ID
0 2019-12-31 5833
1 2020-01-01 11837
2 2020-01-02 1
Почему я не получаю одинаковый подсчет за каждый день?