.gzip не подходит для использования с Spark, так как код сжатия c не разделяется. Итак, Spark должен обрабатывать его на одном узле, и он всегда будет медленным.
Если возможно, я бы порекомендовал изменить код сжатия c на другой, который можно разделить, или предварительно обработать файлы вне Spark, чтобы преобразовать их в другой формат, прежде чем пытаться обрабатывать их с помощью Spark. , Например, вы можете написать небольшой сценарий оболочки, который распаковывает и конвертирует ваши файлы перед попыткой их чтения с помощью Spark.
См. Это для получения дополнительной информации о форматах сжатия: http://comphadoop.weebly.com/
Кстати, CSV тоже не очень хороший формат для Spark. CSV также не обязательно разделяемый, если ваши записи содержат в себе новые строки. В этом случае вы все еще обрабатываете на одном узле.
Я бы порекомендовал использовать Parquet со сжатием Snappy для лучшей производительности.