Порядок следования в колонке, ориентированный на форматы, глава книги Hadoop Полное руководство? - PullRequest
0 голосов
/ 05 октября 2018

На странице 137 из Hadoop: полное руководство 4-е издание , в нем рассказывается о файле форматов, ориентированных на столбцы, и показана картинка ниже.

enter image description here

Почему в RCFile порядок следования чисел равен 1,4,2,5,3,6,7,10,8,11,9,12, а не 1,4,7,10,2,5,8,11,3,6,9,12?

1 Ответ

0 голосов
/ 05 октября 2018

Прежде всего, RC - это не файл столбцов , это файл записей столбцов .RC, а также ORC являются разделяемыми.Это означает, что вы не читаете весь файл, чтобы получить только несколько строк, и он может быть прочитан параллельно многими контейнерами.И именно поэтому нам нужны разбиения.

Разделения содержат строки, которые сгруппированы вместе и могут считываться независимо друг от друга, и в то же время столбцы также группируются внутри разбиений.Подобные данные можно сжать лучше, поэтому, если столбцы сгруппированы, это улучшает сжатие.В вашем примере одно разбиение содержит только две строки , но оно может содержать 10000 или более строк.

Что официальная документация говорит о файле RC:

  • Как хранилище строк, RCFile гарантирует, что данные водна и та же строка находится в одном и том же узле.

  • В качестве хранилища столбцов RCFile может использовать сжатие данных по столбцам и пропускать ненужные операции чтения столбцов.

Также читайте о ORC .Используя индексы в ORC, полосы могут быть легко отфильтрованы на самом низком уровне.Эта функция называется предикатом push down.

...