Hadoop mapreduce программирование - PullRequest
       1

Hadoop mapreduce программирование

3 голосов
/ 16 августа 2011

Как получить отсортированный o / p с помощью программирования Hadoop mapreduce.

Есть ли способ получить окончательную пару ключ-значение в отсортированном порядке.(либо по ключу, либо по значению).

Любые указатели на это очень ценятся.

Спасибо R

Ответы [ 2 ]

6 голосов
/ 17 августа 2011

По умолчанию MapReduce сортирует входные записи по их ключам.

Однако, это может помочь вам загрузить последнюю версию Hadoop и ознакомиться с имеющимися примерами. Есть и другие примеры сортировки.

Если вам нужна дополнительная информация о порядке сортировки, его можно изменить.

Порядок сортировки ключей контролируется RawComparator, который находится следующим образом:

  1. Если установлено свойство mapred.output.key.comparator.class, экземпляр этого класса используется. (Метод setOutputKeyComparatorClass () в JobConf является удобным способ установить это свойство.)

  2. В противном случае ключи должны быть подклассом WritableComparable, а зарегистрированные используется компаратор для ключевого класса.

  3. Если зарегистрированного компаратора не существует, то используется RawComparator, который десериализует потоки байтов сравниваются в объекты и делегаты в WritableCompar Способный метод CompareTo (). Эти правила подтверждают важность регистрации оптимизированных версий RawCompara. торы для ваших собственных пользовательских записываемых классов, а также то, что просто переопределить порядок сортировки, задав собственный компаратор.

3 голосов
/ 16 августа 2011

«Hadoop: полное руководство». 2-е издание описывает глобальную сортировку в главе 8 с примерами кода.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...