hadoop - правильно ли, что все значения, порожденные всеми методами карты для определенного ключа, все отправляются в один метод сокращения? - PullRequest
0 голосов
/ 01 декабря 2011

Если верно, то, согласно заголовку, что, если слишком много данных в одном ключе для обработки одним сокращением?

Если нет, много ли они снижают уровни для обработки? одно уменьшает выбросы, а другое потребляет? это, кажется, не правильно, потому что будут проблемы, когда формат входных данных отличается от формата выходных данных, но просто запутался.

Это может быть связано: Является ли объединитель только для ЛОКАЛЬНОЙ агрегации на один узел или для глобальной агрегации для всех узлов?

Действительно нужен ответ, а не просто «да» или «нет», но объяснение будет оценено!

1 Ответ

1 голос
/ 01 декабря 2011

Да, данные для определенного ключа будут отправлены на определенный редуктор. Combiner определенно облегчит проблему наличия большинства записей для одного ключа. Я не могу придумать лучшего способа сделать работу быстрее.

Это может быть связано: является ли объединитель только для ЛОКАЛЬНОЙ агрегации на один узел или для глобальной агрегации для всех узлов?

Комбинатор работает на том же узле, что и преобразователь, и предназначен для локальной агрегации, а редуктор - для глобальной агрегации по всем узлам кластера.

...