Заявление об отказе от ответственности: я новичок в pyspark
Я сгруппировал свой фрейм данных на id
и month_year
, чтобы получить общее количество пользователей, взаимодействующих с вашим продуктом. Теперь эта проблема - месяцы без активности, теперь отображается мой последний df.
Вот как это делается:
app_sessions_per_month = app_sessions.where("session_start_date_pt > '2019-05-25'").groupby('id','month_year').agg(F.sum('action').alias('count'))
+--------------------+----------+----------------------+
| core_id|month_year|month_sum_detailaction|
+--------------------+----------+----------------------+
|aa01bb6f-2dd8-43e...| 7_2019| 0|
|aa01bb6f-2dd8-43e...| 9_2019| 0|
|aa01bb6f-2dd8-43e...| 10_2019| 0|
+--------------------+----------+----------------------+
Фактические даты go от 05_2019
до 05_2020
.
Исходный DF:
id month_year count
1. 02_2020. 1
1. 03_2020. 4
1. 05_2020. 2
1. 06_2020. 7
1. 07_2020. 2
Желаемый DF:
id month_year count
1. 01_2020. 0
1. 02_2020. 1
1. 03_2020. 4
1 04_2020. 0
1. 05_2020. 2
1. 06_2020. 7
1. 07_2020. 2
Теперь этот пример показывает только 1 id
, но мой фактический набор данных имеет миллионы идентификаторов
Любая помощь будет очень принята.