Question

У меня есть фрейм данных Spark, который нужно заполнить. Размер фрейма данных большой (> 100 миллионов строк). Я могу достичь того, что хочу, используя pandas, как показано ниже.

new_df = df_pd.set_index('someDateColumn') \
              .groupby(['Column1', 'Column2', 'Column3']) \
              .resample('D') \
              .ffill() \
              .reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
              .reset_index()

Я застрял при попытке .resample('D') с помощью Koalas. Есть ли лучшая альтернатива для выполнения репликации заполнения logi c в собственных функциях Spark? Причина в том, что я хочу избежать использования pandas, поскольку он не распространяется и выполняется только на узле драйвера.

Как я могу добиться того же, что и выше, с помощью пакетов Spark / Koalas?

dipan · Answer 1 · 04 августа 2020

В случае, если вы ищете форвардное заполнение Spark , следуйте этому руководству, чтобы удовлетворить это - здесь

Реализация метода pandas resample ('D') в Spark / Koalas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Реализация метода pandas resample ('D') в Spark / Koalas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы