У меня есть фрейм данных Spark, который нужно заполнить. Размер фрейма данных большой (> 100 миллионов строк). Я могу достичь того, что хочу, используя pandas, как показано ниже.
new_df = df_pd.set_index('someDateColumn') \
.groupby(['Column1', 'Column2', 'Column3']) \
.resample('D') \
.ffill() \
.reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
.reset_index()
Я застрял при попытке .resample('D')
с помощью Koalas. Есть ли лучшая альтернатива для выполнения репликации заполнения logi c в собственных функциях Spark? Причина в том, что я хочу избежать использования pandas, поскольку он не распространяется и выполняется только на узле драйвера.
Как я могу добиться того же, что и выше, с помощью пакетов Spark / Koalas?