AWS клей проверяет правильность содержимого файла - PullRequest
0 голосов
/ 21 марта 2020

У меня есть проект в AWS для вставки данных из некоторых файлов, которые будут в S3, в Redshift. Дело в том, что ETL должен планироваться каждый день, чтобы находить новые файлы в S3, а затем проверять правильность этих файлов. Однако это должно быть сделано с помощью пользовательского кода, поскольку файлы могут иметь разные форматы в зависимости от их типа, провайдера и т. Д. c. Я вижу, что AWS Клей позволяет планировать, сканировать и делать ETL. Однако я заблудился о том, как можно создать свой собственный код для ETL и проанализировать файлы, чтобы проверить правильность, прежде чем выполнять инструкцию копирования из S3 в Redshift. Знаете ли вы, можно ли это сделать и как?

Другая проблема заключается в том, что если с правильностью все в порядке, система должна загрузить данные из S3 в сеть через некоторый API. Но если это не файл, его следует оставить в электронной почте ftp. И здесь вы знаете, можно ли это сделать также с помощью клея AWS и как?

большое спасибо!

1 Ответ

0 голосов
/ 26 марта 2020

Вы можете написать свой клейкий / искровой код, загрузить его на s3 и создать связующее задание, ссылаясь на этот скрипт / библиотеку. Все, что вы хотите написать в python, можно сделать клеем. это просто оболочка вокруг искры, которая в свою очередь использует python ....

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...