обработка ввода mrjob в среде hadoop - PullRequest
0 голосов
/ 14 декабря 2018

Мне нужно сохранить задание EMR aws, использующее mrjob для запуска задания EMR.

У него только один шаг сопоставления.

Мой класс с шагом mapper инициализируется следующими значениями:

['--date', date,
'--jobconf', 'mapred.task.timeout=        
{0}'.format(args.mapred_task_timeout),
'--jobconf', 'mapreduce.map.speculative=false',
'--file', utils.get_config_file(),
'-r', 'emr',
'input.txt']

Каждый запускаемый экземпляр EMR получает одну строку из input.txt.Как работает эта логика?Если я отправляю ту же работу в кластере hadoop, она работает так же?

Примечание. Я новичок в Hadoop.Я просмотрел документацию по mrjob несколько раз, чтобы понять, но не смог получить ясности.

...