Я настроил 3 редуктора для моего AWS EMR Had oop Map-Reduce потокового задания в python. Размер данных составляет 900 МБ и считывается из S3.
Скажем, мой фрагмент функции редуктора выглядит следующим образом:
for line in sys.stdin:
key, value = line.split('\t')
print(key)
Каждый редуктор записывает 300 МБ данных в S3. Таким образом, во всех 3 файлах было записано по 300 МБ, поскольку для задания настроено 3 редуктора.
Записываются ли 300 МБ каждого файла по одной строке за раз, или редуктор ставит в очередь данные для записи и написать в конце?