Мне нужно сохранить задание EMR aws, использующее mrjob для запуска задания EMR.
У него только один шаг сопоставления.
Мой класс с шагом mapper инициализируется следующими значениями:
['--date', date,
'--jobconf', 'mapred.task.timeout=
{0}'.format(args.mapred_task_timeout),
'--jobconf', 'mapreduce.map.speculative=false',
'--file', utils.get_config_file(),
'-r', 'emr',
'input.txt']
Каждый запускаемый экземпляр EMR получает одну строку из input.txt.Как работает эта логика?Если я отправляю ту же работу в кластере hadoop, она работает так же?
Примечание. Я новичок в Hadoop.Я просмотрел документацию по mrjob несколько раз, чтобы понять, но не смог получить ясности.