Является ли узкое место редуктора в каркасе МР - PullRequest
0 голосов
/ 19 сентября 2018

Я хочу понять, что делать в следующем случае.Например, у меня есть 1 ТБ текстовых данных, и давайте предположим, что 900 ГБ из них - это слово «Hello».После каждой операции сопоставления у меня будет набор пар ключ-значение <"Hello", 1>.

Но, как я уже сказал, это огромная коллекция, 900 ГБ, и, как я понимаю, редуктор получаетвсе это и сломает.

Моя оперативная память редуктора имеет только 80 ГБ.

Будет ли редуктор действительно раздавить ??Другими словами, является ли редуктор узким местом горизонтального масштабирования?

1 Ответ

0 голосов
/ 21 октября 2018

Да, все равные ключи от всех картографических устройств направляются в один редуктор.

Непонятно, если у вас есть 900 ГБ только одного слова или пакет больших текстовых документов с набором слов.

В последнем случае строка «Hello» на самом деле не занимает столько данных.Также как и одно целое число.

Редуктор также получит длинный список из них, конечно, но если вы повторно использовали код редуктора в качестве Combiner, то вы можете уменьшить проблемы с памятью, предварительно агрегируязначения для каждого входного разделения

...