API EMR медленно обнаруживает завершение заданий Spark в YARN - PullRequest
0 голосов
/ 24 января 2020

У меня большой набор тестов, который должен запускать много заданий Spark (последовательно) в EMR. Каждое задание выполняется всего около 15 секунд, но API EMR, который я опрашиваю для завершения (com.amazonaws:aws-java-sdk:1.11.273), возвращает RUNNING в течение еще ~ 30 секунд после того, как задание фактически завершено в YARN. Это приводит к более чем 20-минутному мертвому времени во время моего набора тестов.

Мой код:

DescribeStepResult res =
    this.elasticMapReduce.describeStep(
       new DescribeStepRequest().clone().withClusterId(this.clusterId).withStepId(stepId));
StepStatus status = res.getStep().getStatus();

Я делаю что-то не так или это внутренняя проблема с EMR?

...