PySpark агрегирует различные типы записи (dataframe vs sql с примером суммы) - PullRequest
0 голосов
/ 19 марта 2020

Интересно, не могли бы вы помочь мне с этой проблемой? У меня есть датафрейм, и я хотел бы применить некоторые агрегации. Вот пример:

my_dataframe = my_dataframe \
    .groupby('campaign_id',
             'other_id') \
    .agg({'nb_transactions': 'sum',
          'net_sales': 'sum',
          'qty': 'sum'}) \
    .withColumnRenamed('sum(nb_transactions)', 'nb_transactions') \
    .withColumnRenamed('sum(net_sales)', 'net_sales') \
    .withColumnRenamed('sum(qty)', 'qty')

Мой коллега сказал мне, что этот вид письма (предыдущий) лучше и эффективнее этого:

my_dataframe = my_dataframe \
    .groupby('campaign_id',
             'other_id') \
    .agg(F.sum(F.col("nb_transactions")).alias("nb_transactions"),
         F.sum(F.col("net_sales")).alias("net_sales"),
         F.sum(F.col("qty")).alias("qty"))

Это правда? а почему?

Заранее спасибо :))

...