Question

Мы знаем, что куст не выполняет выборку до начала задания сортировки. Он просто использует механизм сортировки MapReduce и выполняет сортировку слиянием на стороне сокращения, и используется только одно сокращение. В этом сценарии, скажем, на машине, на которой выполняется Reduce, есть только диск объемом 100 ГБ, что если данные слишком велики, чтобы поместиться на диск?

tedxu · Answer 1 · 28 февраля 2012

Механизм параллельной сортировки Hive все еще находится в стадии разработки, см. здесь .

Хорошо разработанное хранилище данных или приложение базы данных позволит избежать такой глобальной сортировки. При необходимости попробуйте использовать Свинья или Terasort (http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html)

Как в Hive реализована сортировка (Упорядочить по)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как в Hive реализована сортировка (Упорядочить по)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы