Question

Я новичок в pyspark и пытаюсь воссоздать код, написанный на python. Я пытаюсь создать новый фрейм данных, который имеет средние значения каждых 60 наблюдений из старого фрейма данных. Вот код, который я реализовал на старом python:

new_df=old_df.groupby(old_df.index // 60).mean()

Я борюсь с тем, как сделать то же самое в кирпичах данных, используя pyspark.

gaw · Answer 1 · 30 августа 2018

Я думаю, что если у вас есть индексный столбец в вашем фрейме данных, вы можете сделать что-то похожее, как вы предложили:

new_df=old_df.withColumn("new_index", col(index)/60).groupBy("new_index").agg(avg(YOUR_COLUMN_FOR_AVERAGE))

С наилучшими пожеланиями,

pyspark агрегирует каждые n строк

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

pyspark агрегирует каждые n строк

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы