Первый раз с использованием AWS EMR. Я нахожусь в последней главе книги «Семь моделей параллелизма за семь недель» (кстати, великая книга) Пола Бучера, где у нас есть этот призыв (книга, опубликованная в 2014 году):
$ elastic-mapreduce --create --name wordcount --num-instances 11 \
--master-instance-type m1.large --slave-instance-type m1.large \
--ami-version 3.0.2 --jar s3://pb7con-lambda/wordcount.jar \
--arg s3://pb7con-wikipedia/text \
--arg s3://pb7con-wikipedia/counts
Created job flow j-2LSRGPBSR79ZV
Я понимаю, что инструмент ruby elastic-mapreduce
с тех пор был объединен с инструментом aws emr
, и вызов изменился.
Если кто-то может помочь с эквивалентом вышеупомянутого, который работает сегодня это было бы очень полезно.
Для информации книга продолжается:
Мы можем использовать идентификатор потока работ, возвращенный при создании кластера, чтобы установить sh S SH подключение к главному узлу:
$ elastic-mapreduce --jobflow j-2LSRGPBSR79ZV --ssh
Теперь, когда у нас есть командная строка на главном компьютере, мы можем отслеживать ход выполнения задания, просматривая в лог-файлах:
$ tail -f /mnt/var/log/hadoop/steps/1/syslog
INFO org.apache.hadoop.mapreduce.Job (main): map 0% reduce 0%
INFO org.apache.hadoop.mapreduce.Job (main): map 1% reduce 0%
INFO org.apache.hadoop.mapreduce.Job (main): map 2% reduce 0%
INFO org.apache.hadoop.mapreduce.Job (main): map 3% reduce 0%
INFO org.apache.hadoop.mapreduce.Job (main): map 4% reduce 0%