Я не уверен, что получил точную информацию о ситуации, но позвольте мне попытаться ответить.
Я бы порекомендовал выполнить двухэтапный процесс:
- Потоковая передача Spark сохраняет мини-пакеты во временную папку формата:
/yyy-mm-dd/<offset from the day start>.parquet
2019-02-06/100000.parquet
, 2019-02-06/200000.parquet
Еще одно искровое задание считывает данные из соответствующего местоположения и выполняет агрегацию и фильтрацию времени.
Вы можете использовать библиотеку наподобие luigi для управления ими.