Каким образом Reducer в hadoop mapreduce обрабатывает ключи со значениями, превышающими то, что может обрабатывать один контейнер? - PullRequest
0 голосов
/ 22 ноября 2018

Я намекаю на случай, когда входные данные сильно искажены до того уровня, когда имеется огромное количество записей против ключа, выпущенного в фазе картографирования.После фазы перемешивания и сортировки эти записи по этому ключу не могут быть переданы в один контейнер (JVM-редуктор) из-за ограниченного пространства кучи.Как hadoop mapreduce обрабатывает такие случаи?Я предполагаю, что итератор, который мы получаем в редукторе, является неким распределенным итератором, а не просто в памяти.Но я мог видеть, что pig делает это и хотел бы понять, как простой mapreduce достигает этого.
Любые указатели будут высоко оценены !!

...