Для целей разработки / тестирования вы можете настроить блокнот zeppelin локально, установить SSH-соединение с помощью URL-адреса конечной точки AWS Glue, чтобы вы могли иметь доступ к каталогу данных / сканерам и т. Д.а также контейнер s3, в котором находятся ваши данные.
После того, как все тестирование завершено, вы можете связать свой код и загрузить его в контейнер S3.Затем создайте задание, указывающее на сценарий ETL в корзине S3, чтобы задание можно было запускать, а также планировать.
Пожалуйста, обратитесь здесь и , чтобы настроить zeppelin в windows , для получения любой помощи по настройке локальной среды.Вы можете использовать экземпляр dev, предоставляемый Glue, но вы можете понести дополнительные расходы на него (плата за экземпляр EC2).
После настройки записной книжки zeppelin вы можете скопировать скрипт (test.py) взаписная книжка и беги от цеппелина.
В соответствии с часто задаваемыми вопросами AWS Glue:
Вопрос: Когда следует использовать AWS Glue против Amazon EMR?
AWS Glue работает поверх среды Apache Sparkобеспечить масштабируемую среду выполнения для ваших заданий преобразования данных.AWS Glue выводит, развивает и отслеживает ваши задания ETL, чтобы значительно упростить процесс создания и обслуживания заданий.Amazon EMR предоставляет вам прямой доступ к вашей среде Hadoop, предоставляя низкоуровневый доступ и большую гибкость в использовании инструментов, выходящих за пределы Spark.
У вас есть какие-то особые требования для запуска сценария Glue в экземпляре EMR?Так как, по моему мнению, EMR обеспечивает большую гибкость, и вы можете использовать любые сторонние библиотеки Python и работать непосредственно в кластере EMR Spark.
С уважением