Я рассматриваю ниже руководство Hive и смущен деталями, объясненными в документации. https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy
Сначала говорится:
Hive использует столбцы в SORT BY для сортировки строк. перед подачей строк в редуктор.
Затем говорится:
Hive поддерживает SORT BY, который сортирует данные по редуктору. Разница между «упорядочить по» и «сортировать по» заключается в том, что первое гарантирует полный порядок в выводе, а второе - только упорядочение строк в редукторе. Если имеется более одного редуктора, «сортировка по» может дать частично упорядоченные конечные результаты.
Если он уже сортирует записи перед отправкой в редуктор, то как не гарантируется, что окончательный результат будет отсортирован? это работает двойная сортировка?