У меня есть искровое задание, которое вставляет данные в секционированную таблицу улья, используя Insert Overwrite statement
Задание Spark загружает данные быстро (за 15 минут) во временный каталог (~ / .hive - ***) в S3. Но перемещение данных из временного каталога в целевой путь происходит очень медленно, перемещение данных из временного каталога в целевой путь занимает более 40 минут.
Я установил параметр mapreduce.fileoutputcommitter.algorithm.version=2
(по умолчанию 1), но все равно не вижу изменений.
Есть ли способы повысить производительность запроса hive Insert overwrite
от spark?
Кроме того, я вижу такое поведение с таблицей кустов, в которой слишком много существующих разделов. Т.е. данные загружаются относительно быстро в таблицу с меньшим количеством существующих разделов.
Некоторые дополнительные сведения:
Table is a dynamic partitioned table.
Spark version - 2.3.0
Hive version - 2.3.2-amzn-2
Hadoop version - 2.8.3-amzn-0