Question

Попытка выяснить, как экспортировать данные из HDFS, которые выводятся заданием Apache Spark Streaming. Следующая диаграмма определяет архитектуру решения:

Apache Spark выполняет потоковое задание в кластере AWS EMR и сохраняет результаты в HDFS. Потоковое задание собирает данные один раз в час с помощью оконных функций и выполняет вычисления. Мне нужно экспортировать эти результаты в S3 и RDS, что я могу легко сделать, запустив команды S3Distcp и Sqoop, однако я хочу, чтобы они запускались точно после завершения каждого вычисления. Я хотел бы сделать это более изящно, используя что-то другое, чем работа cron.

Есть идеи?

Спасибо

Michel Lemay · Answer 1 · 02 мая 2018

Вы можете отправить сообщение в очередь SQS и выполнить свою работу в лямбде.

Планирование экспорта вывода из HDFS в S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Планирование экспорта вывода из HDFS в S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы