У нас есть процесс дедупликации, который читает файлы паркета, удаляет дубликаты записей и записывает отдельный фрейм данных в Spark sql в виде выходных файлов паркета.Но размер выходного файла удваивает его первоначальный размер.Мы пишем паркет со сжатием gzip, который также является оригинальным кодеком сжатия файлов.