В Hadoop вы можете использовать механизм вторичной сортировки для сортировки значений перед их отправкой в редуктор.
Способ, которым это делается в Hadoop, заключается в том, что вы добавляете значение для сортировки к ключу, а затем получаете несколько пользовательских методов сравнения групп и ключей, которые подключаются к системе сортировки.
Таким образом, вам понадобится ключ, который состоит в основном из реального ключа и значения для сортировки. Чтобы сделать это достаточно быстрым, мне понадобится способ создания составного ключа, который также будет легко разбить на отдельные части, необходимые для методов сравнения групп и ключей.
Какой самый умный способ сделать это. Есть ли какой-нибудь готовый класс Hadoop, который может помочь мне в этом, или мне нужно создать отдельный класс ключей для каждого шага уменьшения карты?
Как мне это сделать, если ключ на самом деле является составным, состоящим из нескольких частей (также необходимо отдельно из-за разделителя)?
Что вы, ребята, рекомендуете?
P.S. Я хотел добавить тег «вторичная сортировка», но у меня еще недостаточно представителей, чтобы сделать это.