Я пытаюсь скопировать данные (более миллиарда записей), используя вставку из таблицы RC (более 550 столбцов) в таблицу ORC с новой схемой (более 1000 столбцов).Ниже приведены используемые настройки:
`-- configure hive.exec for insert.
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.exec.max.dynamic.partitions=9000;
set mapreduce.map.memory.mb=12000;
set mapreduce.map.java.opts=-Xmx10000m;
set hive.merge.mapfiles=false;
Hive command: INSERT OVERWRITE TABLE orc_table PARTITION (date,category)
SELECT (<list of columns and nulls>) FROM rc_table;
`
Эта команда вставки данных Hive занимает почти 13 часов.
Есть ли способы сократить время, затрачиваемое на это?Несколько опций, которые я пробовал:
- разбить вставки для меньшего количества разделов за раз.
- поиграл над настройками, но не заметил особых изменений.