когда использовать паркет поверх ORC или ORC поверх паркета? - PullRequest
0 голосов
/ 06 декабря 2018

Я просмотрел множество стековых ссылок и других блогов, и от всех них есть разные ответы.Все ответы в основном вдохновлены фаворитизмом, но не могут найти какой-либо конкретный пункт данных, где мы могли бы выбирать один над другим.Будь то сложность структуры данных или сжатие, или производительность, или совместимость, оба формата файлов хорошо зарекомендовали себя в разных блогах.

Пожалуйста, помогите с конкретным случаем использования или областью, в которой одно заменяет другое.

1 Ответ

0 голосов
/ 06 декабря 2018

ORC и Parquet - очень похожие форматы файлов.Они имеют больше сходства по сравнению с различиями.1. Обе колонные файловые системы. 2. Обе имеют сжатие на уровне блоков.

Однако у нас есть следующие указатели, чтобы выбрать их 1. Parquet разработан и поддерживается Cloudera.Это вдохновлено от столбчатого формата файла и Google Dremel.Поэтому Cloudera поддерживает продукты и дистрибутивы, предпочитающие паркет.если вы планируете использовать импалу с вашими данными, то предпочтите паркет

Формат ORC развился из формата RCFile.Это очень хорошо, когда у вас есть сложные типы данных как часть ваших данных.

ORC может обеспечить вам лучшее сжатие.

ORC является более зрелым, чем Parquet, когда речь идет о предоставлении функций предикатного сжатия.Недавно это было предусмотрено и в паркете.

Вы можете посмотреть это видео на YouTube.Это хорошо освещает эту тему.Ссылка: https://www.youtube.com/watch?v=NZLrJmjoXw8

...