Pyspark - Заполните пустые месяцы 0 в фрейме данных - PullRequest
2 голосов
/ 26 мая 2020

Заявление об отказе от ответственности: я новичок в pyspark

Я сгруппировал свой фрейм данных на id и month_year, чтобы получить общее количество пользователей, взаимодействующих с вашим продуктом. Теперь эта проблема - месяцы без активности, теперь отображается мой последний df.

Вот как это делается:

app_sessions_per_month = app_sessions.where("session_start_date_pt > '2019-05-25'").groupby('id','month_year').agg(F.sum('action').alias('count'))

+--------------------+----------+----------------------+
|             core_id|month_year|month_sum_detailaction|
+--------------------+----------+----------------------+
|aa01bb6f-2dd8-43e...|    7_2019|                     0|
|aa01bb6f-2dd8-43e...|    9_2019|                     0|
|aa01bb6f-2dd8-43e...|   10_2019|                     0|
+--------------------+----------+----------------------+

Фактические даты go от 05_2019 до 05_2020.

Исходный DF:

id month_year count
1. 02_2020.   1
1. 03_2020.   4
1. 05_2020.   2
1. 06_2020.   7
1. 07_2020.   2

Желаемый DF:

id month_year count
1. 01_2020.   0
1. 02_2020.   1
1. 03_2020.   4
1  04_2020.   0
1. 05_2020.   2
1. 06_2020.   7
1. 07_2020.   2

Теперь этот пример показывает только 1 id, но мой фактический набор данных имеет миллионы идентификаторов

Любая помощь будет очень принята.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...