Разъяснение по сортировке и порядку в улье - PullRequest
0 голосов
/ 01 декабря 2019

Я рассматриваю ниже руководство Hive и смущен деталями, объясненными в документации. https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy

Сначала говорится:

Hive использует столбцы в SORT BY для сортировки строк. перед подачей строк в редуктор.

Затем говорится:

Hive поддерживает SORT BY, который сортирует данные по редуктору. Разница между «упорядочить по» и «сортировать по» заключается в том, что первое гарантирует полный порядок в выводе, а второе - только упорядочение строк в редукторе. Если имеется более одного редуктора, «сортировка по» может дать частично упорядоченные конечные результаты.

Если он уже сортирует записи перед отправкой в ​​редуктор, то как не гарантируется, что окончательный результат будет отсортирован? это работает двойная сортировка?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...