Повторно использовать экземпляр Amazon Elastic MapReduce - PullRequest
11 голосов
/ 30 июля 2011

Я пробовал простую задачу Map / Reduce, используя Amazon Elastic MapReduce, и для ее выполнения потребовалось всего 3 минуты. Можно ли повторно использовать тот же экземпляр для запуска другой задачи.

Несмотря на то, что я только что использовал экземпляр в течение 3 минут, Amazon будет взимать плату за 1 hr, поэтому я хочу использовать остаток 57 минут для запуска нескольких других задач.

Ответы [ 3 ]

14 голосов
/ 10 августа 2011

Ответ - да.

вот как вы это делаете, используя клиент командной строки:

Когда вы создаете экземпляр, передающий флаг - alive , это говорит emr, чтобы кластер оставался рядом после выполнения вашей работы.

Затем вы можете отправить больше задач в кластер:

elastic-mapreduce --jobflow <job-id> --stream --input <s3dir> --output <s3dir> --mapper <script1> --reducer  <script2>

Чтобы завершить кластер позже, просто запустите:

elastic-mapreduce <jobid> --terminate

попробуйте запуститьastic-mapreduce --help, чтобы увидеть все команды, которые вы можете запустить.

Если у вас нет клиента командной строки, получите его здесь .

2 голосов
/ 16 августа 2011

Использование:

elastic-mapreduce --jobflow job-id \
    --jar s3n://some-path/x.jar \
    --step-name "New step name" \
    --args ...

Вы также можете добавить не потоковые шаги в ваш кластер. (только чтобы вам не приходилось самим пробовать ;-))

0 голосов
/ 30 июля 2011

http://aws.amazon.com/elasticmapreduce/faqs/#dev-6

В: Можно ли запустить постоянный поток заданий?Да.Потоки заданий Amazon Elastic MapReduce, которые запускаются с флагом –alive, будут продолжаться до тех пор, пока не будут явно прекращены.Это позволяет клиентам добавлять шаги в поток работ по требованию.Возможно, вы захотите использовать это для отладки логики потока работ без необходимости многократного ожидания запуска потока работ.Вы также можете использовать постоянный поток заданий для запуска долговременного кластера хранилища данных.Это может быть объединено с хранилищем данных и аналитическими пакетами, которые работают поверх Hadoop, такими как Hive и Pig.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...