Hive - загрузка в многораздельную таблицу против однораздельной таблицы - PullRequest
0 голосов
/ 26 июня 2018

Загрузка таблицы формата ORC без разделов куста занимает 2 часа, тогда как загрузка той же таблицы занимает более 5 часов. Почему динамическое разбиение на один столбец (дата) имеет огромное значение в производительности? Любое предложение по улучшению производительности будет очень полезно.

Это около 500 миллионов строк в день, и я пытаюсь загрузить в течение 3 месяцев. Таким образом, 3 месяца для таблицы без разделов занимает 2 часа, а для таблицы с разделами - 5 часов. Исходные и целевые таблицы имеют формат ORC.

...