У меня есть секционированная таблица Hive, заполненная Hive и сохраненная на S3 как Parquet. Размер данных для конкретного раздела составляет 3 ГБ. Затем я делаю копию с Афиной с:
CREATE TABLE tmp_partition
AS SELECT *
FROM original_table
where hour=11
Размер результирующих данных составляет менее половины (1,4 ГБ). В чем может быть причина?
РЕДАКТИРОВАТЬ: соответствующий оператор определения таблицы улья:
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
's3://...'
TBLPROPERTIES (
'parquet.compress'='SNAPPY',
'transient_lastDdlTime'='1558011438'
)