У нас есть искро задание, но также случайным образом выполнялся запрос улья в текущем, было oop кластер
Я видел, что в той же таблице кустов используется другой шаблон разбиения, как показано ниже:
, т. Е. Если таблица является разделом по дате, поэтому
hdfs dfs -ls /data/hive/warehouse/db_name/table_name/part_date=2019-12-01/
дал результат
/data/hive/warehouse/db_name/table_name/part_date=2019-12-01/part-00001
....
/data/hive/warehouse/db_name/table_name/part_date=2019-12-01/part-06669
/data/hive/warehouse/db_name/table_name/part_date=2019-12-01/part-06670
однако, если найти данные с другой датой раздела
hdfs dfs -ls /data/hive/warehouse/db_name/table_name/part_date=2020-01-01/
перечислить файлы с другим именем patter
/data/hive/warehouse/db_name/table_name/part_date=2020-01-01/000007_0
/data/hive/warehouse/db_name/table_name/part_date=2020-01-01/000008_0
....
/data/hive/warehouse/db_name/table_name/part_date=2020-01-01/000010_0
Что я могу сказать, разница не только в одном разделе, файлы данных поставляются с префиксом part-
, а в другом - как 00000n_0
, также существует гораздо больше файлов для part-
файл, но каждый файл довольно мал.
Я также обнаружил, что агрегация на part-
файлах намного медленнее, чем 00000n_0
files
, что может быть возможной причиной различий в шаблонах файлов и какая может быть конфигурация для перехода с одного на другой?