Question

У меня есть секционированная таблица Hive, заполненная Hive и сохраненная на S3 как Parquet. Размер данных для конкретного раздела составляет 3 ГБ. Затем я делаю копию с Афиной с:

CREATE TABLE tmp_partition
AS SELECT *
FROM original_table
where hour=11

Размер результирующих данных составляет менее половины (1,4 ГБ). В чем может быть причина?

РЕДАКТИРОВАТЬ: соответствующий оператор определения таблицы улья:

ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://...'
TBLPROPERTIES (
  'parquet.compress'='SNAPPY', 
  'transient_lastDdlTime'='1558011438'
)

Theo · Answer 1 · 17 мая 2019

Различные настройки сжатия - одно из возможных объяснений.Если ваши исходные файлы не были сжаты или сжаты с помощью Snappy, это можно объяснить.Если вы не укажете, какое сжатие использовать, Athena по умолчанию выберет gzip, который сжимает лучше, чем Snappy.

Если вы хотите получить более подробный ответ, чем вам, вам придется дать нам больше подробностей.Как вы создавали исходные файлы, сжимаются ли они, какое сжатие, как выглядят данные и т. Д.

Почему размер файла Parquet уменьшается при копировании с Amazon Athena

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему размер файла Parquet уменьшается при копировании с Amazon Athena

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы