Размер файла паркета удваивается после дедупликации в Spark

У нас есть процесс дедупликации, который читает файлы паркета, удаляет дубликаты записей и записывает отдельный фрейм данных в Spark sql в виде выходных файлов паркета.Но размер выходного файла удваивает его первоначальный размер.Мы пишем паркет со сжатием gzip, который также является оригинальным кодеком сжатия файлов.

Размер файла паркета удваивается после дедупликации в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Размер файла паркета удваивается после дедупликации в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы