У меня есть корзина s3 с почти 100 тысячами сжатых файлов JSON.
Эти файлы называются [timestamp].json
вместо более разумных [timestamp].json.gz
.
У меня есть другие процессы, которые используют их, поэтому переименование не вариант, а их копирование еще менее идеально.
Я использую spark.read.json([pattern])
для чтения этих файлов. Если я переименую имя файла, чтобы оно содержало .gz
, это работает нормально, но пока расширение просто .json
, они не могут быть прочитаны.
Есть ли какой-нибудь способ, которым я могу сказать искру, что эти файлы сжаты?