Я намекаю на случай, когда входные данные сильно искажены до того уровня, когда имеется огромное количество записей против ключа, выпущенного в фазе картографирования.После фазы перемешивания и сортировки эти записи по этому ключу не могут быть переданы в один контейнер (JVM-редуктор) из-за ограниченного пространства кучи.Как hadoop mapreduce обрабатывает такие случаи?Я предполагаю, что итератор, который мы получаем в редукторе, является неким распределенным итератором, а не просто в памяти.Но я мог видеть, что pig делает это и хотел бы понять, как простой mapreduce достигает этого.
Любые указатели будут высоко оценены !!