Я выполняю параллельное выполнение 10 или более запросов на выборку для другого столбца одной и той же таблицы, затем мое приложение отнимает от 2 до 3 минут для одного запроса.
Если число моих запросов меньше или равно 5, тогда для параллельного выполнения требуется 24 секунды для каждого запроса. Я использую Cloudera-5.14.2. и база данных Hive. Я попробовал приведенное ниже решение, но не смог улучшить производительность.
1- TEZ:
set hive.execution.engine=tez;
2- ВЕКТОРИЗАЦИЯ:
set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;
3- ОПТИМИЗАЦИЯ ЗАПРОСА НА ОСНОВЕ СТОИМОСТИ:
set hive.cbo.enable=true;
set hive.compute.query.using.stats=true;
set hive.stats.fetch.column.stats=true;
set hive.stats.fetch.partition.stats=true;
set hive.stats.autogather=true;
Есть ли способ улучшить производительность при параллельном выполнении в кусте.
что такое параллельный поток выполнения для улья.