Как проверить код AWS Glue без конечной точки разработчика - PullRequest
0 голосов
/ 24 февраля 2019

Я бы хотел избежать конечной точки разработчика AWS.Есть ли способ, где я могу тестировать и отлаживать свой код PySpark без использования конечной точки разработчика AWS с помощью тестирования моего кода в локальной записной книжке / IDE?

Ответы [ 4 ]

0 голосов
/ 25 марта 2019

Как уже говорили другие, это зависит от того, какую часть клея вы собираетесь использовать.Если ваш код основан на чистом Spark, без динамических фреймов и т. Д. Тогда локальной версии Spark может быть достаточно, если, тем не менее, вы собираетесь использовать расширения Glue, на данном этапе нет возможности не использовать точку конца конца Dev.

Надеюсь, это поможет.

0 голосов
/ 21 марта 2019

У нас есть настройка, где мы устанавливаем pyspark локально, и мы используем VSCode для разработки наших кодов pyspark, модульного тестирования и отладки.Мы запускаем коды против локальной установки pyspark во время разработки, а затем внедряем эти коды в EMR для запуска с реальным набором данных.

Я не уверен, насколько это применимо к тому, что вы пытаетесь сделать сКлей, так как это уровень выше в абстракции.

0 голосов
/ 23 марта 2019

Если вы собираетесь развернуть код pyspark в сервисе AWS Glue, вам, возможно, придется использовать GlueContext и другие API-интерфейсы AWS Glue.Поэтому, если вы хотите протестировать сервис AWS Glue, используя эти API-интерфейсы AWS Glue, у вас должна быть конечная точка разработчика AWS.

Однако наличие ноутбука AWS Glue не является обязательным, поскольку вы можете настроить zeppelin и т. Д. Установить туннельное соединение ssh с AWS Glue DEP для разработки / тестирования из локальной среды.Обязательно удалите DEPoint после завершения разработки / тестирования в течение дня.

В качестве альтернативы, если вы не заинтересованы в использовании AWS Glue API, отличных от GlueContext, тогда да, вы можете настроить zeppelin в локальной среде,локально протестируйте код, а затем загрузите его на S3, создайте задание Glue для тестирования в AWS Glue Service

0 голосов
/ 21 марта 2019

Мы используем pytest для тестирования кода pyspark.Мы храним код pyspark в другом файле и вызываем эти функции внутри файла кода.С этим разделением мы можем выполнить модульное тестирование кода pyspark, используя pytest

...