(PY) Spark: Как прочитать файл «.txt» с расширением «.gz» - PullRequest
0 голосов
/ 24 июня 2019

Мне нужно загрузить чистый текстовый RDD в спарк.Но по некоторым причинам имя файла загружаемого файла должно называться «xxx.gz».Этот файл по умолчанию распознается как файл gz при использовании sc.textFile.Как я могу сказать спекулянту распознать файл как чистый текстовый файл?

1 Ответ

0 голосов
/ 24 июня 2019

Вы можете использовать gzip .

gzip.open(filename, mode='rb', compresslevel=9, encoding=None, errors=None, newline=None)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...