Pyspark - RollUp с фиксированной колонной - PullRequest
0 голосов
/ 26 мая 2020

У меня есть фрейм данных Spark с тремя столбцами: a , b , c. Я хочу запустить накопительный пакет для каждого значения в a . Результат будет таким же, как и при запуске:

df.rollup('a','b','c')

Но без столбца с a=Null, b=Null, c=Null. Я не хочу вычислять эту строку, потому что df разделен на a , и это очень дорого. Есть ли способ?

1 Ответ

0 голосов
/ 27 мая 2020

Я решил это с помощью:

df.rollup('a', 'b', 'c').where(F.col('a').isNotNull() | F.col('b').isNotNull() | F.col('c').isNotNull()) Это не вычисляет сумму трех уровней.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...