Как я могу узнать, когда задача amazon mapreduce завершена? - PullRequest
2 голосов
/ 24 февраля 2011

Я пытаюсь запустить задачу mapreduce на amazon ec2.Я установил все параметры конфигурации, а затем вызвал метод runFlowJob сервиса AmazonElasticMapReduce.Интересно, есть ли способ узнать, завершена ли работа и каков ее статус?(Мне нужно знать, когда я смогу получить результаты mapreduce из s3 для дальнейшей обработки)

в настоящее время код просто продолжает выполняться, потому что вызов runJobFlow не блокирует.*

спасибо,

aviad

1 Ответ

2 голосов
/ 15 марта 2011

Из документации AWS:

После завершения потока работ кластер останавливается и раздел HDFS теряется. Чтобы предотвратить потерю данных, настройте последний шаг потока заданий для сохранения результатов в Amazon S3.

Далее говорится:

Если для параметра JobFlowInstancesDetail : KeepJobFlowAliveWhenNoSteps установлено значение TRUE, поток работ перейдет в состояние WAITING, а не завершится после завершения шагов.

В каждом разрешено не более 256 шаговпоток работ.

Для длительных потоков работ мы рекомендуем периодически сохранять результаты.

Так что, похоже, нет способа узнать, когда это будет сделано.Вместо этого вам нужно сохранить свои данные как часть работы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...