Могу ли я сообщить spark.read.json, что мои файлы разархивированы? - PullRequest
0 голосов
/ 10 сентября 2018

У меня есть корзина s3 с почти 100 тысячами сжатых файлов JSON.

Эти файлы называются [timestamp].json вместо более разумных [timestamp].json.gz.

У меня есть другие процессы, которые используют их, поэтому переименование не вариант, а их копирование еще менее идеально.

Я использую spark.read.json([pattern]) для чтения этих файлов. Если я переименую имя файла, чтобы оно содержало .gz, это работает нормально, но пока расширение просто .json, они не могут быть прочитаны.

Есть ли какой-нибудь способ, которым я могу сказать искру, что эти файлы сжаты?

Ответы [ 2 ]

0 голосов
/ 12 августа 2019

SparkSession может читать сжатый файл JSON напрямую, вот так:

val json=spark.read.json("/user/the_file_path/the_json_file.log.gz") json.printSchema()

0 голосов
/ 10 сентября 2018

Да, вы можете отправить опцию compression на spark.read:

spark.read.option('compression', 'gzip').json(...)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...