Инструменты, используемые для рабочих мест ETL - PullRequest
0 голосов
/ 14 мая 2019

Кто-нибудь здесь пишет ETL или ELT на Python (чисто Python - не PySpark)?Если да, каковы некоторые особенности написания ETL на Python?В настоящее время мы используем SAP Data Services, но хотим отойти от него и использовать AWS Glue, Lambda, Redshift и т. Д.

1 Ответ

0 голосов
/ 14 мая 2019

AWS Redshift - это мощный инструмент, который можно использовать в целях ETL.Обычно использование регулярных SQL-запросов и инструментов Redshift должно обрабатывать большинство ваших случаев.

Для более сложных сценариев вы можете рассмотреть возможность использования Redshift с Python UDF .Redshift поставляется с внушительным набором библиотек, включенных из коробки (например, Numpy или Pandas).Также вы можете легко импортировать свои собственные библиотеки в Redshift.

...