Ожидаемое время выполнения AWS клеевых работ - PullRequest
0 голосов
/ 19 июня 2020

Я запускаю задание в AWS клее на 1 Мб данных. Для завершения требуется 2,5 секунды.

Для работы использовалась среда Pyspark.

Таким образом, на 1 ГБ данных задание должно занять около 2,5 * 1000 = 2500 секунд. секунд. Как это возможно?

1 Ответ

1 голос
/ 19 июня 2020

По умолчанию задание склейки настроено для работы с 10 DPU, где каждый DPU имеет 16 ГБ ОЗУ и 4 виртуальных ядра. Таким образом, в вашем случае, даже если вы выполняете задание с двумя DPU, вы все еще недостаточно используете кластер.

И время выполнения действительно не работает так, как вы рассчитали, и есть много дополнительных факторов. Если вы хотите узнать больше о панорамировании ресурсов для Glue, перейдите по этой ссылке.

...