Question

Я использую библиотеку pyspark для загрузки огромных CSV-файлов. CSV-файлы помещаются в архив gz. Проблема в том, что имя файла в верхнем регистре (включая расширение gz). Тогда имя файла выглядит так:

MY_FILE_TO_PROCESS.GZ

Для загрузки файла я использую следующую команду

self.spark_session = SparkSession.builder.appName("My-Spark-Session").getOrCreate()
self.spark_session.read.load("/path/to/MY_FILE_TO_PROCESS.GZ", format='csv', sep=","')

В этом случае это не работает. Файл не распакован правильно. Когда я переименовываю файл следующим образом (я использую расширение в нижнем регистре), все работает нормально:

MY_FILE_TO_PROCESS.gz

Есть ли способ, как сказать, чтобы зажечь этот файл является архив gz? Я не могу переименовать файл.

Спасибо за совет

Spark - загрузить CSV в архив gz с расширением в верхнем регистре

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark - загрузить CSV в архив gz с расширением в верхнем регистре

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов