Размер файла паркета удваивается после дедупликации в Spark - PullRequest
0 голосов
/ 31 мая 2019

У нас есть процесс дедупликации, который читает файлы паркета, удаляет дубликаты записей и записывает отдельный фрейм данных в Spark sql в виде выходных файлов паркета.Но размер выходного файла удваивает его первоначальный размер.Мы пишем паркет со сжатием gzip, который также является оригинальным кодеком сжатия файлов.

...