Question

У меня есть корзина s3 с почти 100 тысячами сжатых файлов JSON.

Эти файлы называются [timestamp].json вместо более разумных [timestamp].json.gz.

У меня есть другие процессы, которые используют их, поэтому переименование не вариант, а их копирование еще менее идеально.

Я использую spark.read.json([pattern]) для чтения этих файлов. Если я переименую имя файла, чтобы оно содержало .gz, это работает нормально, но пока расширение просто .json, они не могут быть прочитаны.

Есть ли какой-нибудь способ, которым я могу сказать искру, что эти файлы сжаты?

xuehui · Answer 1 · 12 августа 2019

SparkSession может читать сжатый файл JSON напрямую, вот так:

val json=spark.read.json("/user/the_file_path/the_json_file.log.gz") json.printSchema()

ernest_k · Answer 2 · 10 сентября 2018

Да, вы можете отправить опцию compression на spark.read:

spark.read.option('compression', 'gzip').json(...)

Могу ли я сообщить spark.read.json, что мои файлы разархивированы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Могу ли я сообщить spark.read.json, что мои файлы разархивированы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов