ORC и Parquet - очень похожие форматы файлов.Они имеют больше сходства по сравнению с различиями.1. Обе колонные файловые системы. 2. Обе имеют сжатие на уровне блоков.
Однако у нас есть следующие указатели, чтобы выбрать их 1. Parquet разработан и поддерживается Cloudera.Это вдохновлено от столбчатого формата файла и Google Dremel.Поэтому Cloudera поддерживает продукты и дистрибутивы, предпочитающие паркет.если вы планируете использовать импалу с вашими данными, то предпочтите паркет
Формат ORC развился из формата RCFile.Это очень хорошо, когда у вас есть сложные типы данных как часть ваших данных.
ORC может обеспечить вам лучшее сжатие.
ORC является более зрелым, чем Parquet, когда речь идет о предоставлении функций предикатного сжатия.Недавно это было предусмотрено и в паркете.
Вы можете посмотреть это видео на YouTube.Это хорошо освещает эту тему.Ссылка: https://www.youtube.com/watch?v=NZLrJmjoXw8