Я использую библиотеку pyspark для загрузки огромных CSV-файлов. CSV-файлы помещаются в архив gz. Проблема в том, что имя файла в верхнем регистре (включая расширение gz). Тогда имя файла выглядит так:
MY_FILE_TO_PROCESS.GZ
Для загрузки файла я использую следующую команду
self.spark_session = SparkSession.builder.appName("My-Spark-Session").getOrCreate()
self.spark_session.read.load("/path/to/MY_FILE_TO_PROCESS.GZ", format='csv', sep=","')
В этом случае это не работает. Файл не распакован правильно. Когда я переименовываю файл следующим образом (я использую расширение в нижнем регистре), все работает нормально:
MY_FILE_TO_PROCESS.gz
Есть ли способ, как сказать, чтобы зажечь этот файл является архив gz? Я не могу переименовать файл.
Спасибо за совет