Вставка улья в стол ORC со стола RC занимает слишком много времени. - PullRequest
0 голосов
/ 23 октября 2018

Я пытаюсь скопировать данные (более миллиарда записей), используя вставку из таблицы RC (более 550 столбцов) в таблицу ORC с новой схемой (более 1000 столбцов).Ниже приведены используемые настройки:

`-- configure hive.exec for insert.
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.exec.max.dynamic.partitions=9000;
set mapreduce.map.memory.mb=12000;
set mapreduce.map.java.opts=-Xmx10000m;
set hive.merge.mapfiles=false;

Hive command: INSERT OVERWRITE TABLE orc_table PARTITION (date,category) 
              SELECT (<list of columns and nulls>) FROM rc_table;
`

Эта команда вставки данных Hive занимает почти 13 часов.

Есть ли способы сократить время, затрачиваемое на это?Несколько опций, которые я пробовал:

  • разбить вставки для меньшего количества разделов за раз.
  • поиграл над настройками, но не заметил особых изменений.
...