Вставить перезапись в разделенную таблицу куста (указывающую на s3) из pyspark слишком медленно - PullRequest
0 голосов
/ 02 ноября 2018

У меня есть искровое задание, которое вставляет данные в секционированную таблицу улья, используя Insert Overwrite statement

Задание Spark загружает данные быстро (за 15 минут) во временный каталог (~ / .hive - ***) в S3. Но перемещение данных из временного каталога в целевой путь происходит очень медленно, перемещение данных из временного каталога в целевой путь занимает более 40 минут.

Я установил параметр mapreduce.fileoutputcommitter.algorithm.version=2 (по умолчанию 1), но все равно не вижу изменений.

Есть ли способы повысить производительность запроса hive Insert overwrite от spark?

Кроме того, я вижу такое поведение с таблицей кустов, в которой слишком много существующих разделов. Т.е. данные загружаются относительно быстро в таблицу с меньшим количеством существующих разделов.

Некоторые дополнительные сведения:

Table is a dynamic partitioned table. 
Spark version - 2.3.0
Hive version - 2.3.2-amzn-2
Hadoop version - 2.8.3-amzn-0
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...