По умолчанию MapReduce сортирует входные записи по их ключам.
Однако, это может помочь вам загрузить последнюю версию Hadoop и ознакомиться с имеющимися примерами. Есть и другие примеры сортировки.
Если вам нужна дополнительная информация о порядке сортировки, его можно изменить.
Порядок сортировки ключей контролируется RawComparator, который находится следующим образом:
Если установлено свойство mapred.output.key.comparator.class, экземпляр этого класса
используется. (Метод setOutputKeyComparatorClass () в JobConf является удобным
способ установить это свойство.)
В противном случае ключи должны быть подклассом WritableComparable, а зарегистрированные
используется компаратор для ключевого класса.
Если зарегистрированного компаратора не существует, то используется RawComparator, который десериализует
потоки байтов сравниваются в объекты и делегаты в WritableCompar
Способный метод CompareTo ().
Эти правила подтверждают важность регистрации оптимизированных версий RawCompara.
торы для ваших собственных пользовательских записываемых классов, а также то, что просто переопределить
порядок сортировки, задав собственный компаратор.