Question

У меня есть фрейм данных Spark с тремя столбцами: a , b , c. Я хочу запустить накопительный пакет для каждого значения в a . Результат будет таким же, как и при запуске:

df.rollup('a','b','c')

Но без столбца с a=Null, b=Null, c=Null. Я не хочу вычислять эту строку, потому что df разделен на a , и это очень дорого. Есть ли способ?

Rodrigo Serna Pérez · Answer 1 · 27 мая 2020

Я решил это с помощью:

df.rollup('a', 'b', 'c').where(F.col('a').isNotNull() | F.col('b').isNotNull() | F.col('c').isNotNull()) Это не вычисляет сумму трех уровней.

Pyspark - RollUp с фиксированной колонной

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pyspark - RollUp с фиксированной колонной

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов