Реализация третьей фазы, называемой объединением после фазы сокращения - PullRequest
0 голосов
/ 06 июня 2011

Мне нужно добавить третью фазу - слияние - которая объединяет выходные данные отдельных, параллельных задач Reduce. Это позволяет выполнять такие вещи, как объединения и создание декартовых продуктов. Может ли кто-нибудь помочь мне, как это сделать? Я проверил нет API Hadoop 0.21 для поддержки его функций.

1 Ответ

1 голос
/ 07 июня 2011

Hadoop является платформой MapReduce (не MapReduceMerge!), И это вряд ли изменится. Тем не менее, вы можете подать Jira или попросить на http://getsatisfaction.com/cloudera/, чтобы получить официальный стенд по этому вопросу.

Если вам нужны объединения, попробуйте Pig (единственный, с которым у меня есть практический опыт, но есть и другие - Hive, ...). Свинья делает соединения довольно простыми.

...