Как запустить EMR Jobs на основе новых метаданных файлов S3 - PullRequest
0 голосов
/ 19 января 2019

Это мой вариант использования, у меня были данные, поступающие в s3, и я хочу запустить задания EMR для выполнения на основе полученных данных.Однако задания / этапы EMR не будут обрабатывать только полученные данные, а будут использовать метаданные (из имени файла файла s3) для обновления существующих данных (что может потребовать извлечения других старых данных из s3), поэтому вкратце янеобходимо решение передать метаданные в EMR о новых файлах, добавленных в s3.

У меня есть 3 варианта, настроить уведомление SNS для запуска лямбда-функций AWS, которые используют boto3 для добавления шагов в работающий кластер EMR с подробностями метаданныхили настроить уведомления SNS для постановки в очередь задач в SQS и выполнения шага EMR, который периодически извлекает метаданные из SQS, или использовать конвейер данных (и лямбда?) для запуска шагов EMR.

Что делает большесмысл для тех, кто имеет опыт в подобном сценарии?

...