Как бороться с несбалансированным вводом задачи сокращения? - PullRequest
1 голос
/ 07 сентября 2011

Недавно меня спросили, как бороться с несбалансированным вводом задачи сокращения.Я немного подумал и попытался перераспределить данные, но не нашел хорошего решения.Любой совет?

1 Ответ

3 голосов
/ 07 сентября 2011

На самом деле у вас есть 2 способа.

  1. Увеличьте число сокращений, чтобы ваши данные могли лучше распределиться по задачам
  2. Перепишите разделитель, чтобы лучше распределить ключи позадачи.[1]

[1] http://hadoop.apache.org/common/docs/r0.20.2/api/org/apache/hadoop/mapreduce/Partitioner.html

...