Каково максимальное количество записей, которое может принять вызов Reduc () редуктора hadoop? - PullRequest
0 голосов
/ 15 марта 2011

У меня есть преобразователь, вывод которого сопоставлен с несколькими различными экземплярами редуктора с использованием моего собственного Partitioner.Мой разделитель следит за тем, чтобы данные всегда отправлялись в данный экземпляр редуктора.Что меня интересует, так это то, что если по каким-то причинам входные данные искажены, и я получаю, скажем, миллион записей (точнее, #records не может поместиться в память) для определенного ключа, есть ли какой-нибудь возможный способ, которым редуктор будетвсе еще работает нормально?Я имею в виду, является ли итерация итерируемой, которая передается редуктору ленивому загрузчику?

1 Ответ

2 голосов
/ 15 марта 2011

Единственным практическим ограничением для значений, связанных с Reducer, является свободное место на локальных дисках, как Map, так и Reduce.Это можно сделать, добавив больше узлов и, следовательно, больше задач Map / Reduce, в зависимости от вашего перекоса.

Так что да, итератор загружает значения из комбинации памяти и диска.

...