Почему в работе AWS Glue иногда меньше исполнителей? - PullRequest
0 голосов
/ 10 мая 2019

Я пытаюсь понять, почему моя работа с клеем в большинстве случаев не работает на полном параллелизме?

enter image description here

Как показано на рисунке, большинство исполнителей останавливаются на полпути к концу работы?Я предполагаю, что некоторые рабочие нагрузки на самом деле не параллельны?Могу ли я понять, какие функции имеют тенденцию вызывать это?Или это ожидается?

Когда я проверяю журналы CloudWatch, кажется, что все, что я вижу, это что-то вроде:

19/05/10 09:05:15 INFO Client: Application report for application_1557470405923_0001 (state: RUNNING)
19/05/10 09:05:15 DEBUG Client: 
client token: N/A
diagnostics: N/A
ApplicationMaster host: 172.31.43.166
ApplicationMaster RPC port: 0
queue: default
start time: 1557471194764
final status: UNDEFINED
tracking URL: http://ip-172-31-42-62.ap-southeast-1.compute.internal:20888/proxy/application_1557470405923_0001/
user: root
19/05/10 09:05:16 INFO Client: Application report for application_1557470405923_0001 (state: RUNNING)
19/05/10 09:05:16 DEBUG Client: 
client token: N/A
diagnostics: N/A
ApplicationMaster host: 172.31.43.166
ApplicationMaster RPC port: 0
queue: default
start time: 1557471194764
final status: UNDEFINED
tracking URL: http://ip-172-31-42-62.ap-southeast-1.compute.internal:20888/proxy/application_1557470405923_0001/
user: root
19/05/10 09:05:17 INFO Client: Application report for application_1557470405923_0001 (state: RUNNING)
19/05/10 09:05:17 DEBUG Client: 
client token: N/A
diagnostics: N/A
ApplicationMaster host: 172.31.43.166
ApplicationMaster RPC port: 0
queue: default
start time: 1557471194764
final status: UNDEFINED
tracking URL: http://ip-172-31-42-62.ap-southeast-1.compute.internal:20888/proxy/application_1557470405923_0001/
user: root

Похоже, он все еще выполняет мой довольно большой запрос Spark SQL ... потому что я не вижукакие-либо журналы, указывающие на обратное ... есть ли способ понять, что делает клей в различных точках?Например.isit на этот запрос или другой, например?

...