СПАРК |Генерация слишком много файлов деталей

У нас есть цель HIVE с хранением как паркет.Задания Informatica BDM настроены на использование искры в качестве механизма выполнения для загрузки данных в целевой объект HIVE.

Мы заметили, что существует около 2000 файлов деталей, которые были созданы внутри раздела в HDFS.Такое поведение повлияет на показатели HIVE.

Есть ли альтернатива для того же?

Размер входного файла составляет всего 12 МБ

Размер блока составляет 128 МБ

С уважением, Сридар Венкатесан

1 Ответ

СПАРК |Генерация слишком много файлов деталей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

СПАРК |Генерация слишком много файлов деталей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы