Обновлен aws EMR-вызов для Ch. 8 из «Семи моделей параллелизма за семь недель» - PullRequest
0 голосов
/ 11 марта 2020

Первый раз с использованием AWS EMR. Я нахожусь в последней главе книги «Семь моделей параллелизма за семь недель» (кстати, великая книга) Пола Бучера, где у нас есть этот призыв (книга, опубликованная в 2014 году):

$ elastic-mapreduce --create --name wordcount --num-instances 11 \
--master-instance-type m1.large --slave-instance-type m1.large \
--ami-version 3.0.2 --jar s3://pb7con-lambda/wordcount.jar \
--arg s3://pb7con-wikipedia/text \
--arg s3://pb7con-wikipedia/counts 
Created job flow j-2LSRGPBSR79ZV

Я понимаю, что инструмент ruby elastic-mapreduce с тех пор был объединен с инструментом aws emr, и вызов изменился.

Если кто-то может помочь с эквивалентом вышеупомянутого, который работает сегодня это было бы очень полезно.

Для информации книга продолжается:

Мы можем использовать идентификатор потока работ, возвращенный при создании кластера, чтобы установить sh S SH подключение к главному узлу:

$ elastic-mapreduce --jobflow j-2LSRGPBSR79ZV --ssh

Теперь, когда у нас есть командная строка на главном компьютере, мы можем отслеживать ход выполнения задания, просматривая в лог-файлах:

$ tail -f /mnt/var/log/hadoop/steps/1/syslog
INFO org.apache.hadoop.mapreduce.Job (main): map 0% reduce 0%
INFO org.apache.hadoop.mapreduce.Job (main): map 1% reduce 0%
INFO org.apache.hadoop.mapreduce.Job (main): map 2% reduce 0%
INFO org.apache.hadoop.mapreduce.Job (main): map 3% reduce 0%
INFO org.apache.hadoop.mapreduce.Job (main): map 4% reduce 0%
...