Планирование экспорта вывода из HDFS в S3 - PullRequest
0 голосов
/ 02 мая 2018

Попытка выяснить, как экспортировать данные из HDFS, которые выводятся заданием Apache Spark Streaming. Следующая диаграмма определяет архитектуру решения:

Solution architecture

Apache Spark выполняет потоковое задание в кластере AWS EMR и сохраняет результаты в HDFS. Потоковое задание собирает данные один раз в час с помощью оконных функций и выполняет вычисления. Мне нужно экспортировать эти результаты в S3 и RDS, что я могу легко сделать, запустив команды S3Distcp и Sqoop, однако я хочу, чтобы они запускались точно после завершения каждого вычисления. Я хотел бы сделать это более изящно, используя что-то другое, чем работа cron.

Есть идеи?

Спасибо

1 Ответ

0 голосов
/ 02 мая 2018

Вы можете отправить сообщение в очередь SQS и выполнить свою работу в лямбде.

...