Question

Я настроил 3 редуктора для моего AWS EMR Had oop Map-Reduce потокового задания в python. Размер данных составляет 900 МБ и считывается из S3.

Скажем, мой фрагмент функции редуктора выглядит следующим образом:

for line in sys.stdin:
    key, value = line.split('\t')
    print(key)

Каждый редуктор записывает 300 МБ данных в S3. Таким образом, во всех 3 файлах было записано по 300 МБ, поскольку для задания настроено 3 редуктора.

Записываются ли 300 МБ каждого файла по одной строке за раз, или редуктор ставит в очередь данные для записи и написать в конце?

В Had oop Map-Reduce выводится ли вывод редуктора по одной строке за раз?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.