Загрузка данных в Hive с использованием движка tez и журналов ambari показывает, что они завершены, но журналы зависают, не завершив вставку в эти разделы - PullRequest
0 голосов
/ 29 января 2020

Мы загружаем данные в таблицу кустов, используя механизм выполнения tez. Задания, которые мы используем для загрузки, находятся в рабочем состоянии, но в ambari для идентификатора приложения мы видим, что оно выполнено успешно, и из журналов мы можем видеть, что оно застряло. У него было около 90 разделов, и объем также очень похож. Задания выполняются ежедневно и загружают данные за 3 месяца.

Пример для зависшего журнала:

Partition aa.db.tablename{dt=2020-02-06} stats: [numFiles=42, numRows=265732, totalSize=9005011, rawDataSize=34024246] 
Partition aa.db.tablename{dt=2020-02-07} stats: [numFiles=42, numRows=265853, totalSize=9310285, rawDataSize=34399056] 

Пример успешного журнала:

Partition aa.db.tablename{dt=2020-02-06} stats: [numFiles=42, numRows=265732, totalSize=9005011, rawDataSize=34024246] 
Partition aa.db.tablename{dt=2020-02-07} stats: [numFiles=42, numRows=265853, totalSize=9310285, rawDataSize=34399056] 

OK 
Time taken: 1385.571 seconds

1 Ответ

0 голосов
/ 03 февраля 2020

Установка этого свойства в false помогла нам в загрузке данных set hive.stats.autogather=false;

Поскольку у нас было более 400 разделов, мы также отключили set hive.stats.fetch.partition.stats=false;, но это больше остановка кровотечения и временного патча.

...