Вам не нужно распаковывать файлы по отдельности.Единственная проблема с чтением файлов gzip напрямую заключается в том, что ваши чтения не будут распараллелены.Это означает, что независимо от размера файла вы получите только один раздел на файл, потому что gzip
не является кодеком сжатия с разделением.
Вы можете столкнуться с проблемами, если размер отдельных файлов превышает определенный размер (2 ГБ?), Поскольку существует верхний предел размера раздела Spark.
Кроме того, ваш код выглядит функционально нормально.