Производительность Pyspark для разных форматов сжатия - PullRequest
0 голосов
/ 22 сентября 2018

У меня есть большой стол в сжатом (snappy, gzip, lzo) формате паркета.Я проверяю время для разных SQL-запросов Pyspark.Я ожидал, что Snappy продемонстрирует лучшее из того, что я прочитал.В частности, люди говорят, что это быстро, потому что это сжимает / распаковывает быстро.Тем не менее, gzip, самый сжатый формат всегда быстрее.

Какие факторы могут повысить производительность gzip?

...