Question

json-файлы ежедневно публикуются в корзину s3. Я хочу взять этот json-файл, выполнить некоторую обработку, а затем отправить данные в новое хранилище s3, где они будут собраны и сохранены в Redshift. Каким будет рекомендуемый для этого конвейер AWS? AWS лямбда, которая срабатывает, когда новый файл json помещается на s3, а затем запускается что-то вроде пакетного задания AWS? Или что-то другое? Я не знаком со всеми веб-сервисами AWS, поэтому могу пропустить что-то очевидное.

Итак, поток выглядит так:

корзина s3 -> обработка данных -> корзина s3 -> красное смещение

и это шаг обработки данных, в котором я не уверен - как запланировать что-то достаточно масштабируемое, которое выполняется ежедневно и эффективно и возвращает данные обратно. Обработка - это разбор json-данных, некоторая агрегация и очистка данных.

Jeremy Thompson · Answer 1 · 13 марта 2019

и это шаг обработки данных, в котором я не уверен - как запланировать что-то достаточно масштабируемое, которое выполняется ежедневно и эффективно и возвращает данные обратно.

Не беспокойтесь о масштабируемости с помощью Lambda, просто сосредоточьтесь на коротких запущенных заданиях.Вот пример: https://docs.aws.amazon.com/lambda/latest/dg/with-scheduledevents-example.html

Я думаю, что одна часть головоломки, которую вам не хватает, это документация для выражений в расписании с использованием Rate или Cron: https://docs.aws.amazon.com/lambda/latest/dg/with-scheduledevents-example.html

Трубопровод для анализа ежедневных данных JSON с помощью AWS?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Трубопровод для анализа ежедневных данных JSON с помощью AWS?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов