Question

У меня есть данные, хранящиеся в S3 как файлы json в кодировке utf-8, и сжатые с использованием snappy / lz4. Я хотел бы использовать Spark для чтения / обработки этих данных, но Spark, похоже, требуется суффикс имени файла *1002* (.lz4, .snappy), чтобы понять схему сжатия.

проблема в том, что я не могу контролировать, как называются файлы - они не будут записаны с этим суффиксом. Также слишком дорого переименовывать все такие файлы, чтобы включать такие, как суффикс.

Есть ли способ для спарка правильно прочитать эти файлы JSON? Для файлов, закодированных в паркет, в Hive Metastore есть 'parquet.compression' = 'snappy', который, похоже, решает эту проблему для файлов паркетных изображений. Есть ли что-то похожее для текстовых файлов?

Читать сжатый JSON в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Читать сжатый JSON в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы