Решения AWS ETL для небольших данных - PullRequest
0 голосов
/ 30 октября 2019

Моя цель - получить данные из файлов S3, преобразовать их и сохранить в источнике данных (может быть DynamoDB или RDS). И размер файла будет <20 МБ, и может быть несколько (~ 10) таких файлов, загружаемых периодически (один раз в день). Я рассматриваю использование следующих подходов. </p>

  1. AWS lambda
  2. AWS пакет.

В идеале, обработка файлов должна занимать менее 15 минут, но естьнет гарантии на размер файла. Таким образом, теоретически обработка файлов может выходить за рамки возможностей лямбда-обработки. Таким образом, подход, о котором я подумал, заключается в том, чтобы заранее проверить, можно ли выполнять обработку файлов через лямбду. Если да, вызовите лямбду. Else Trigger Batch. На данный момент я рассматриваю использование DynamoDB, но нет никакой гарантии, что размер элемента <400 КБ, но на практике размер элемента будет <400 КБ. Изменится ли предложенный мной проект, если я переключу db на RDS? </p>

Еще один вопрос, который у меня возникает, - когда рассматривать традиционные подходы ETL, такие как использование конвейера данных AWS, EMR или Glue.

...