Почему размер файла Parquet уменьшается при копировании с Amazon Athena - PullRequest
0 голосов
/ 16 мая 2019

У меня есть секционированная таблица Hive, заполненная Hive и сохраненная на S3 как Parquet. Размер данных для конкретного раздела составляет 3 ГБ. Затем я делаю копию с Афиной с:

CREATE TABLE tmp_partition
AS SELECT *
FROM original_table
where hour=11

Размер результирующих данных составляет менее половины (1,4 ГБ). В чем может быть причина?

РЕДАКТИРОВАТЬ: соответствующий оператор определения таблицы улья:

ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://...'
TBLPROPERTIES (
  'parquet.compress'='SNAPPY', 
  'transient_lastDdlTime'='1558011438'
)

1 Ответ

1 голос
/ 17 мая 2019

Различные настройки сжатия - одно из возможных объяснений.Если ваши исходные файлы не были сжаты или сжаты с помощью Snappy, это можно объяснить.Если вы не укажете, какое сжатие использовать, Athena по умолчанию выберет gzip, который сжимает лучше, чем Snappy.

Если вы хотите получить более подробный ответ, чем вам, вам придется дать нам больше подробностей.Как вы создавали исходные файлы, сжимаются ли они, какое сжатие, как выглядят данные и т. Д.

...