У нас есть сжатые сгенерированные файлы ORC. Я просто пытаюсь понять журнал дампа файла ORC, и я знаю, что по умолчанию размер полосы для ORC будет 64 МБ. Но я вижу, что каждая полоса в файле ORC имеет размер около 5-10 МБ. Я просто хочу знать, представлены ли эти размеры в сжатом формате или моя полоса по умолчанию сама по себе меньше 64 МБ?
Примечание: я использую последний экземпляр EMR в фоновом режиме, а файлы находятся в S3.