Apache Перегородка и структура ковша - PullRequest
2 голосов
/ 26 января 2020

В Apache Hive, как выглядит структура каталогов после того, как огромный набор данных разбивается на разделы и затем объединяется?

Например, у меня есть набор данных клиентов по стране, данные разбиты по штатам, а затем разбиты по городам. Как мы узнаем, сколько файлов будет присутствовать в ведре города?

Ответы [ 2 ]

1 голос
/ 26 января 2020

Раздел - это каталог, и каждому разделу соответствует заданное значение c столбца с разделами.

Внутри таблицы или раздела / каталога сегменты организованы в виде файлов. Количество сегментов предопределено при создании таблицы с CLUSTERED BY (sth) INTO K BUCKETS. Там будет один файл для каждого отдельного сегмента. Hive назначает записи в сегменты, основываясь на их значении ha sh, рассчитанном по столбцу с разбивкой, а мод берется по числу блоков K.

0 голосов
/ 26 января 2020

Максимальное количество блоков - 256. Для получения более подробной информации, пожалуйста, обратитесь по ссылке ниже:

[ В чем разница между разбиением таблицы на части в Hive?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...