pyspark агрегирует каждые n строк - PullRequest
0 голосов
/ 28 августа 2018

Я новичок в pyspark и пытаюсь воссоздать код, написанный на python. Я пытаюсь создать новый фрейм данных, который имеет средние значения каждых 60 наблюдений из старого фрейма данных. Вот код, который я реализовал на старом python:

new_df=old_df.groupby(old_df.index // 60).mean()

Я борюсь с тем, как сделать то же самое в кирпичах данных, используя pyspark.

1 Ответ

0 голосов
/ 30 августа 2018

Я думаю, что если у вас есть индексный столбец в вашем фрейме данных, вы можете сделать что-то похожее, как вы предложили:

new_df=old_df.withColumn("new_index", col(index)/60).groupBy("new_index").agg(avg(YOUR_COLUMN_FOR_AVERAGE))

С наилучшими пожеланиями,

...