Ограничить количество файлов, производимых Drill при выполнении операторов CREATE TABLE? - PullRequest
0 голосов
/ 20 сентября 2018

Можно ли ограничить количество файлов, используемых для создания / представления таблицы, при использовании оператора создания таблицы в Apache Drill?

В настоящее время наборы файлов паркета хранятся в HDFS, и я преобразую их в TSV с помощью сверленияCREATE TABLE, например.

alter session set `store.format`='tsv';
create table dfs.ucera_internal.`/my/workspace/path/tablename/tsv` as 
select col1, col2, from_unixtime(extract_date/1000) as etl_date
from dfs.ucera_internal.`/my/workspace/path/tablename/parquet`;

Проблема заключается в том, что выполнение этого процесса может превратить ~ 12 файлов паркета в ~ 30 файлов TSV, что вызывает другие проблемы для последующих операций.Есть ли способ ограничения количества файлов, используемых при создании этой TSV-версии таблицы?

Не удалось найти такую ​​информацию в документах (здесь https://drill.apache.org/docs/create-table-as-ctas/ или здесь https://drill.apache.org/docs/configuration-options-introduction/),, хотя предложение PARTITION BY, похоже, близко (https://drill.apache.org/docs/partition-by-clause/#creating-a-partitioned-table-of-ngram-data) (но невсе таблицы имеют хорошие разделимые поля).

1 Ответ

0 голосов
/ 28 сентября 2018

Рассмотрите возможность настройки следующих параметров конфигурации [1]:

planner.slice_target
planner.width.max_per_node
planner.width.max_per_query

[1] https://drill.apache.org/docs/configuration-options-introduction/

...