Spark - загрузить CSV в архив gz с расширением в верхнем регистре - PullRequest
0 голосов
/ 13 ноября 2018

Я использую библиотеку pyspark для загрузки огромных CSV-файлов. CSV-файлы помещаются в архив gz. Проблема в том, что имя файла в верхнем регистре (включая расширение gz). Тогда имя файла выглядит так:

MY_FILE_TO_PROCESS.GZ

Для загрузки файла я использую следующую команду

self.spark_session = SparkSession.builder.appName("My-Spark-Session").getOrCreate()
self.spark_session.read.load("/path/to/MY_FILE_TO_PROCESS.GZ", format='csv', sep=","')

В этом случае это не работает. Файл не распакован правильно. Когда я переименовываю файл следующим образом (я использую расширение в нижнем регистре), все работает нормально:

MY_FILE_TO_PROCESS.gz

Есть ли способ, как сказать, чтобы зажечь этот файл является архив gz? Я не могу переименовать файл.

Спасибо за совет

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...