Я ищу рекомендацию, какую службу AWS (или их комбинацию) использовать для выполнения кода ETL в Python для преобразования текстовых файлов:
Описание кода / процесса : 1. Python код преобразует входные текстовые файлы из пользовательского формата поставщика в формат CSV. 2. Однократный вызов кода Python преобразует один файл и может выполняться от минуты до 10 минут и более, поскольку размеры входных файлов различаются (от КБ до 100 с МБ). 3. Python код должен запускаться как событие, как только новый входной файл готов, что может произойти в любое время, несколько раз в день. 4. Мне нужно использовать AWS опции без сервера, следовательно, нет EC2.
Мое текущее решение - использовать Lambda / S3 Event, чтобы обнаружить создание новых файлов в S3, «переместить» его в соответствующий папку в том же ведре S3 и триггер AWS клей Python Shell Job для его преобразования. Я считаю, что AWS EMR является излишним для размеров преобразуемых файлов (
Однако я открыт для более качественных рекомендаций, поскольку AWS Glue пока не выглядит таким же надежным и зрелым, как другие сервисы ( как лямбда). Если моё текущее решение кажется здравым, пожалуйста, перезвоните в любом случае, это поможет мне убедиться, что я на правильном пути!
Спасибо, Майкл:)