У меня есть кадр данных, который выглядит следующим образом:
number type username product publishing_dt genres
0 product 897 2019-03-05 VXA
1 1 access kerrigan 1459 2008-05-06 VXA,VHS
2 1 orderline 45michael 76863 2019-10-04 VXA,B,GT
3 1 orderline 45michael 86833 2020-02-04 VS,KJM
4 1 orderline 45michael 130365 2020-02-10 VXA,GT,B,JFSS
5 1 orderline alicia7 130365 2020-02-10 VXA,GT,B,JFSS
6 product 86217 2017-01-06 B,GTE
7 product 1459 2020-03-04 GT,VS,KJM
8 1 orderline john5 130365 2020-02-10 VXA,GT,B,JFSS
9 1 orderline kerrigan 76863 2019-10-04 VXA,B,GT
10 1 orderline kerrigan 1023897 2020-01-07 GT,VHS
11 1 orderline kylemm 537077 2017-05-07 VXA,GT
12 5 access uololo 830166 2019-12-05 VXA,B
13 3 access 7762hc 84325 2018-04-03 VHS,GT,GTE,VXA
Где type указывает тип доступа, который пользователь сделал к продукту (если это была покупка (' строка заказа '), если это было посещение (' доступ ') или если это просто информация (' товар ', предмет не посещен и не куплен), product является уникальным идентификатором рассматриваемого продукта, а number представляет количество обращений пользователя к продукту (если type == access ).
При выполнении:
df = df.groupby(['number', 'type','username','product', 'publishing_dt', 'genres']).size().reset_index(name='count')
для получения количества раз, когда элемент был просмотрен или приобретен пользователем, я теряю всю информацию, относящуюся к типу = product items.
Как мне избежать этого?