Попытка выяснить, как экспортировать данные из HDFS, которые выводятся заданием Apache Spark Streaming. Следующая диаграмма определяет архитектуру решения:
Apache Spark выполняет потоковое задание в кластере AWS EMR и сохраняет результаты в HDFS. Потоковое задание собирает данные один раз в час с помощью оконных функций и выполняет вычисления.
Мне нужно экспортировать эти результаты в S3 и RDS, что я могу легко сделать, запустив команды S3Distcp и Sqoop, однако я хочу, чтобы они запускались точно после завершения каждого вычисления.
Я хотел бы сделать это более изящно, используя что-то другое, чем работа cron.
Есть идеи?
Спасибо