СПАРК |Генерация слишком много файлов деталей - PullRequest
0 голосов
/ 13 сентября 2018

У нас есть цель HIVE с хранением как паркет.Задания Informatica BDM настроены на использование искры в качестве механизма выполнения для загрузки данных в целевой объект HIVE.

Мы заметили, что существует около 2000 файлов деталей, которые были созданы внутри раздела в HDFS.Такое поведение повлияет на показатели HIVE.

Есть ли альтернатива для того же?

Размер входного файла составляет всего 12 МБ

Размер блока составляет 128 МБ

С уважением, Сридар Венкатесан

1 Ответ

0 голосов
/ 17 сентября 2018

Основная причина произошла из-за spark.sql.shuffle.partitions

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...