Более быстрое время разработки с AWS Glue - PullRequest
0 голосов
/ 02 февраля 2019

AWS Glue выглядит многообещающе, но у меня есть проблема с временем цикла разработки.Если я редактирую скрипты PySpark через консоль AWS, выполнение нескольких минут занимает даже минимальный набор тестовых данных.Это затрудняет быструю итерацию, если мне нужно подождать 3-5 минут, чтобы посмотреть, вызвал ли я правильный метод для glueContext или понял определенное поведение DynamicFrame.

Какие методы позволили бы мнеитерировать быстрее?

Полагаю, я мог бы разработать код Spark локально и развернуть его в Glue в качестве среды выполнения.Но если мне нужно протестировать код с расширениями, специфичными для Glue, я застрял.

Ответы [ 2 ]

0 голосов
/ 02 февраля 2019

Я храню код pyspark в отдельном файле класса и склеиваю код в другой файл.Мы используем клей только для чтения и записи данных.Мы делаем тестовую разработку, используя pytest на локальной машине.Нет необходимости в конечной точке dev или zeppelin.После того, как все ошибки, связанные с синтаксической или бизнес-логикой, исправлены в pyspark, комплексное тестирование выполняется с помощью клея.Мы также написали сценарий оболочки, который загружает последний код в корзину S3, из которой выполняется задание склеивания.

0 голосов
/ 02 февраля 2019

Для сценариев разработки и тестирования Glue имеет Конечные точки разработки , которые можно использовать с ноутбуками, такими как Zeppelin, установленными либо на локальной машине , либо на экземпляре Amazon EC2 (другие опции - «REPL Shell» и «PyCharm Professional»).

Пожалуйста, не забудьте удалить конечную точку, когда закончите тестирование, поскольку вы платите за нее, даже если она простаивает .

...