Интеграция AWS Glue и Python - PullRequest
       5

Интеграция AWS Glue и Python

0 голосов
/ 27 февраля 2019

У меня есть процесс нормализации данных, который существует в python, но теперь нужно масштабировать.В настоящее время этот процесс выполняется с помощью файла конфигурации конкретного задания, содержащего список функций преобразования, которые необходимо применить к таблице данных для этого задания.Функции преобразования являются взаимоисключающими и могут применяться в любом порядке.Все функции преобразования находятся в библиотеке и импортируются и применяются к данным только в том случае, если они перечислены в файле конфигурации конкретного задания.Разные задания будут иметь разные обязательные функции, перечисленные в конфигурации для этого задания, но все функции будут присутствовать в библиотеке.

В самом общем смысле, как AWS Glue может обрабатывать подобные процессы?Мне не нужен такой технический пример, как обзор высокого уровня.Просто глядя, чтобы быть в курсе некоторых вариантов.Спасибо!

1 Ответ

0 голосов
/ 27 февраля 2019

Самая важная вещь, которую необходимо учитывать при использовании AWS glue , - это безсерверная искровая среда с расширениями.Это означает, что вам нужно будет адаптировать ваш скрипт, чтобы он был похож на pySpark.Если вы согласны с этим, тогда вы можете использовать внешние библиотеки Python, следуя инструкциям на Документация по AWS Glue

Если у вас уже запущены скрипты, и вы не хотите использовать Spark, вы всегда можете рассмотреть AWS Data Pipeline .Это сервис для запуска преобразований данных не только Spark.С другой стороны, AWS Data Pipeline работает на основе задач, а не на основе данных, что означает отсутствие управления каталогами или схемами.

Если вы хотите использовать AWS Data Pipeline с Python, это не очевидно при чтении документации,но этот процесс будет в основном включать файл оболочки в S3 с инструкциями по настройке среды Python и запуску сценария.Затем вы настраиваете планирование для конвейера, и AWS позаботится о запуске виртуальных машин при необходимости и последующей остановке.У вас есть хороший пост в stackoverflow об этом

...