json-файлы ежедневно публикуются в корзину s3. Я хочу взять этот json-файл, выполнить некоторую обработку, а затем отправить данные в новое хранилище s3, где они будут собраны и сохранены в Redshift. Каким будет рекомендуемый для этого конвейер AWS? AWS лямбда, которая срабатывает, когда новый файл json помещается на s3, а затем запускается что-то вроде пакетного задания AWS? Или что-то другое? Я не знаком со всеми веб-сервисами AWS, поэтому могу пропустить что-то очевидное.
Итак, поток выглядит так:
корзина s3 -> обработка данных -> корзина s3 -> красное смещение
и это шаг обработки данных, в котором я не уверен - как запланировать что-то достаточно масштабируемое, которое выполняется ежедневно и эффективно и возвращает данные обратно. Обработка - это разбор json-данных, некоторая агрегация и очистка данных.