У меня может быть пробел в понимании разбиения улья. У меня есть внешняя таблица, разделенная по дате. Я создаю файлы паркета с помощью запроса к управляемой таблице улья. В настоящее время я запускаю сценарий bash для инкрементной обработки по дате (которая предоставляется в запрос). Есть ли лучший способ обработки нескольких дат?
Таблица создается следующим образом:
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
CREATE EXTERNAL TABLE my_table (id int, product string)
PARTITIONED BY (dt string)
LOCATION '/path/to/location'
Мой bash скрипт по существу выполняет итерацию дат и вставляет данные через:
INSERT OVERWRITE TABLE my_table (dt='2020-07-09')
SELECT id, product FROM managed_table WHERE dt = '2020-07-09';
Итак, это работает, но только раз в день, что кажется не очень эффективным. Есть способ лучше?