От «уменьшить входные записи» до «уменьшить входные группы» - PullRequest
0 голосов
/ 12 июня 2011

После запуска задания MapRed мы получим некоторую сводку о задании, например:

...
reduce input records: 10
reduce input groups: 3
...

Я знаю, что это вызвано комбинированием повторяющихся клавиш.У меня вопрос, какой метод используется редуктором для объединения записей?key1.equals (key2) или key1.hashCode == key2.hashCode?

Спасибо.

Ответы [ 2 ]

2 голосов
/ 12 июня 2011

Сравнивать только с, поскольку ключи должны реализовывать WritableComparable . key.hashCode() используется для разделения. Равные никогда не будут использованы.

1 голос
/ 15 июня 2011

Редукторы, как правило, не объединяют записи. Один редуктор выполняется для каждого ключа, излучаемого преобразователями (не обязательно параллельно).

Reduce Input Groups - количество уникальных ключей, введенных в редукторы. Уменьшить входные записи - это число значений. Каждый ключ имеет одно или несколько значений, связанных с ним, поступают в редуктор.

...