Настройки сжатия паркета Spark-sql, похоже, не работают - PullRequest
1 голос
/ 16 марта 2019

Я установил параметры сжатия в SparkConf следующим образом:

sparkConf.set("spark.sql.parquet.compression.codec", "SNAPPY")

, а также после создания 'SparkSession' следующим образом:

 val spark = SparkSession
    .builder()
    .config(sparkConf)
    .config("spark.sql.parquet.compression.codec", "GZIP") //SNAPPY
    .config("spark.io.compression.codec", "org.apache.spark.io.LZ4CompressionCodec")

Однако, я вижу следующее в stdout executor:

Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.codec.CodecConfig: Compression set to false
Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.codec.CodecConfig: Compression: UNCOMPRESSED
Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.ParquetOutputFormat: Parquet block size to 134217728
Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.ParquetOutputFormat: Parquet page size to 1048576
Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.ParquetOutputFormat: Parquet dictionary page size to 1048576
Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.ParquetOutputFormat: Dictionary is on
Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.ParquetOutputFormat: Validation is off
Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.ParquetOutputFormat: Writer version is: PARQUET_1_0
Mar 16, 2019 10:34:17 AM INFO: parquet.hadoop.InternalParquetRecordWriter: Flushing mem columnStore to file. allocated memory: 0

Относительно вывода:

Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.codec.CodecConfig: Compression set to false
Mar 16, 2019 10:34:16 AM INFO: parquet.hadoop.codec.CodecConfig: Compression: UNCOMPRESSED

Означает ли это, что spark записывает несжатые данные в паркет? Если нет, то как мне проверить? Есть ли способ просмотреть метаданные паркета?

...