Улей установить размер напильника для паркета? - PullRequest
0 голосов
/ 11 июля 2020

Как установить размер файла паркета? Я попытался настроить некоторые параметры, но в итоге получил один большой паркетный файл.

Я создал секционированную внешнюю таблицу и затем вставил в нее с помощью оператора перезаписи вставки.

SET hive.auto.convert.join=false;
SET hive.support.concurrency=false;
SET hive.exec.reducers.max=600;
SET hive.exec.parallel=true;
SET hive.exec.compress.intermediate=true;
SET hive.intermediate.compression.codec=org.apache.hadoop.io.compress.Lz4Codec;
SET mapreduce.map.output.compress=false;
SET mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.Lz4Codec;
SET hive.groupby.orderby.position.alias=true;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.optimize.sort.dynamic.partition=true;
SET hive.resultset.use.unique.column.names=false
SET mapred.reduce.tasks=100;
SET dfs.blocksize=268435456;
SET parquet.block.size=268435456;

INSERT OVERWRITE TABLE my_table PARTITION (dt)
SELECT dt, x, sum(y) FROM managed_table GROUP BY dt, x;

Используя параметры dfs.blocksize и parquet.block.size, я надеялся сгенерировать разбиения файлов паркета размером 256 МБ, но я получил один файл паркета размером 4 ГБ. Хау

...