Проблема производительности при параллельном выполнении для 10 или более запросов в Cloudera - PullRequest
0 голосов
/ 27 июня 2018

Я выполняю параллельное выполнение 10 или более запросов на выборку для другого столбца одной и той же таблицы, затем мое приложение отнимает от 2 до 3 минут для одного запроса. Если число моих запросов меньше или равно 5, тогда для параллельного выполнения требуется 24 секунды для каждого запроса. Я использую Cloudera-5.14.2. и база данных Hive. Я попробовал приведенное ниже решение, но не смог улучшить производительность.

1- TEZ:

set hive.execution.engine=tez;

2- ВЕКТОРИЗАЦИЯ:

set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;

3- ОПТИМИЗАЦИЯ ЗАПРОСА НА ОСНОВЕ СТОИМОСТИ:

set hive.cbo.enable=true;
set hive.compute.query.using.stats=true;
set hive.stats.fetch.column.stats=true;
set hive.stats.fetch.partition.stats=true;
set hive.stats.autogather=true;

Есть ли способ улучшить производительность при параллельном выполнении в кусте. что такое параллельный поток выполнения для улья.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...