Трубопровод для анализа ежедневных данных JSON с помощью AWS? - PullRequest
0 голосов
/ 13 марта 2019

json-файлы ежедневно публикуются в корзину s3. Я хочу взять этот json-файл, выполнить некоторую обработку, а затем отправить данные в новое хранилище s3, где они будут собраны и сохранены в Redshift. Каким будет рекомендуемый для этого конвейер AWS? AWS лямбда, которая срабатывает, когда новый файл json помещается на s3, а затем запускается что-то вроде пакетного задания AWS? Или что-то другое? Я не знаком со всеми веб-сервисами AWS, поэтому могу пропустить что-то очевидное.

Итак, поток выглядит так:

корзина s3 -> обработка данных -> корзина s3 -> красное смещение

и это шаг обработки данных, в котором я не уверен - как запланировать что-то достаточно масштабируемое, которое выполняется ежедневно и эффективно и возвращает данные обратно. Обработка - это разбор json-данных, некоторая агрегация и очистка данных.

1 Ответ

2 голосов
/ 13 марта 2019

и это шаг обработки данных, в котором я не уверен - как запланировать что-то достаточно масштабируемое, которое выполняется ежедневно и эффективно и возвращает данные обратно.

Не беспокойтесь о масштабируемости с помощью Lambda, просто сосредоточьтесь на коротких запущенных заданиях.Вот пример: https://docs.aws.amazon.com/lambda/latest/dg/with-scheduledevents-example.html

Я думаю, что одна часть головоломки, которую вам не хватает, это документация для выражений в расписании с использованием Rate или Cron: https://docs.aws.amazon.com/lambda/latest/dg/with-scheduledevents-example.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...