В HDInsight ведут себя и сегментирование Hive одинаково, благодаря тому, что хранилище данных Azure (BLOB) хранит данные? - PullRequest
0 голосов
/ 06 октября 2019

Преимущество разделения часто объясняется разделением данных на разные каталоги синхронно с требованием запросов - например, если мы разбиваем таблицу на что-то вроде 'страны', то когда мы фильтруем данные для конкретногострана, он будет искать только в определенном каталоге, предназначенном для этой страны. Теперь преимущество сегментирования (и, скажем, мы определяем разбиение, а также сегментирование для этой таблицы) состоит в том, что хеширующая функция применяется к базовому значению столбца с маркерами и на основе этого все строки с одинаковым значением хеш-функции для группированных данныхСтолбец будет отправлен в тот же сегмент ( файл ), поэтому при применении фильтра для определенного значения столбца сегмента для обработки требуется загрузить только определенный файл . Итак, при разделении фокус находится на каталогах , а при группировании фокус - на файлах . Но я не могу понять, как это действительно имеет значение, если базовая файловая система не имеет понятия о каталогах, что в точности относится к HDInsight. Таким образом, в таком случае, когда хранилище Azure является файловой системой, все хранится как BLOBS, каталоги фактически не существуют физически, существуют только BLOB с так называемыми «путями», появляющимися в их именах. Итак, можем ли мы сказать, что разбиение и сегментирование в конечном итоге представляют собой нечто подобное для Hive на основе HDInsight?

...