Я хочу иметь возможность превратить группу в одну строку, но значения второго столбца в этой группе должны быть объединены в новые столбцы или -99, если данных недостаточно.
После того, как мы сгруппируемся по session_id с этим вводом:
user_id session_id timestamp step impressions n_clicks
0 004A07DM0IDW 1d688ec168932 1541555799 7 2059240 5.0
1 004A07DM0IDW 1d688ec168932 1541555799 7 2033381 3.0
2 004A07DM0IDW 1d688ec168932 1541555799 7 1724779 4.0
3 004A07DM0IDW 1d688ec168932 1541555799 7 127131 2.0
4 004A07DM0IDW 1d688ec168932 1541555799 7 399441 1.0
5 004A07DM0IDW 1d688ec168932 1541555799 7 103357 3.0
6 004A07DM0IDW 1d688ec168932 1541555799 7 127132 3.0
7 004A07DM0IDW 1d688ec168932 1541555799 7 1167004 1.0
8 004A07DM0IDW 1d688ec168932 1541555799 7 4491766 4.0
9 004A07DM0IDW 1d688ec168932 1541555799 7 2249874 5.0
10 00Y1Z24X8084 26b6d294d66e7 1541651823 3 4476010 4.0
11 00Y1Z24X8084 26b6d294d66e7 1541651823 3 3843244 5.0
Я хотел бы произвести этот вывод
user_id session_id timestamp step count_0 count_1 count_2 count... count_24
0 004A07DM0IDW 1d688ec168932 1541555799 7 5.0 3.0 4.0 2.0 -99
1 00Y1Z24X8084 26b6d294d66e7 1541555799 3 4.0 5.0 -99 -99 -99
Что мы ищем, так это то, что user_id
session_id
timestamp
step
всегда будет одинаковым для каждой строки. Впрочем, впечатления разные. Для каждой из строк (будет максимум 25) значение в столбце click отображается на count_x
, однако, если количество строк недостаточно, последующие значения будут принимать значение -99.
Поскольку в первом групповом кадре 10 строк, это означает, что столбцы с count_10
по count_24
будут иметь -99 в качестве значения. Для столбцов второго группового кадра от count_2
до count_24
будет -99.