Расхождение между AWS Glue и его конечной точкой разработки - PullRequest
0 голосов
/ 08 марта 2019

Насколько я понимаю, конечные точки Dev в AWS Glue можно использовать для итеративной разработки кода, а затем развертывания его в задании Glue. Я считаю это особенно полезным при разработке заданий Spark, потому что каждый раз, когда вы запускаете задание, запуск фонового кластера Hadoop занимает несколько минут. Однако при использовании оболочки Python в Glue вместо Spark наблюдается несоответствие. Import pg не работает в конечной точке разработчика, которую я создал с помощью записной книжки Sagemaker JupyterLab Python, но работает в AWS Glue, когда я создаю задание с использованием оболочки Python. Разве в конечной точке dev не должно быть таких же библиотек, как в Glue? Какой смысл иметь конечную точку dev, если вы не можете воспроизвести один и тот же код в обоих местах (конечная точка dev и задание Glue)?

1 Ответ

0 голосов
/ 14 марта 2019

Во-первых, задания оболочки Python не будут запускать кластер Hadooo в бэкэнде, так как это не даст вам среду Spark для ваших заданий.Во-вторых, поскольку PyGreSQL не написан на Pure Python, он не будет работать с собственной средой Glue (Glue Spark Job, Dev-конечная точка и т. Д.) В-третьих, Python Shell имеет дополнительную поддержку для встроенного определенного пакета.

Таким образом,Я не вижу смысла в использовании DevEndpoint для заданий Python Shell.

...