У меня есть большой стол в сжатом (snappy, gzip, lzo) формате паркета.Я проверяю время для разных SQL-запросов Pyspark.Я ожидал, что Snappy продемонстрирует лучшее из того, что я прочитал.В частности, люди говорят, что это быстро, потому что это сжимает / распаковывает быстро.Тем не менее, gzip, самый сжатый формат всегда быстрее.
Какие факторы могут повысить производительность gzip?