Как в Hive реализована сортировка (Упорядочить по)? - PullRequest
1 голос
/ 28 февраля 2012

Мы знаем, что куст не выполняет выборку до начала задания сортировки. Он просто использует механизм сортировки MapReduce и выполняет сортировку слиянием на стороне сокращения, и используется только одно сокращение. В этом сценарии, скажем, на машине, на которой выполняется Reduce, есть только диск объемом 100 ГБ, что если данные слишком велики, чтобы поместиться на диск?

1 Ответ

0 голосов
/ 28 февраля 2012

Механизм параллельной сортировки Hive все еще находится в стадии разработки, см. здесь .

Хорошо разработанное хранилище данных или приложение базы данных позволит избежать такой глобальной сортировки. При необходимости попробуйте использовать Свинья или Terasort (http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html)

...