Можно ли ограничить количество файлов, используемых для создания / представления таблицы, при использовании оператора создания таблицы в Apache Drill?
В настоящее время наборы файлов паркета хранятся в HDFS, и я преобразую их в TSV с помощью сверленияCREATE TABLE, например.
alter session set `store.format`='tsv';
create table dfs.ucera_internal.`/my/workspace/path/tablename/tsv` as
select col1, col2, from_unixtime(extract_date/1000) as etl_date
from dfs.ucera_internal.`/my/workspace/path/tablename/parquet`;
Проблема заключается в том, что выполнение этого процесса может превратить ~ 12 файлов паркета в ~ 30 файлов TSV, что вызывает другие проблемы для последующих операций.Есть ли способ ограничения количества файлов, используемых при создании этой TSV-версии таблицы?
Не удалось найти такую информацию в документах (здесь https://drill.apache.org/docs/create-table-as-ctas/ или здесь https://drill.apache.org/docs/configuration-options-introduction/),, хотя предложение PARTITION BY, похоже, близко (https://drill.apache.org/docs/partition-by-clause/#creating-a-partitioned-table-of-ngram-data) (но невсе таблицы имеют хорошие разделимые поля).