Hive Distinct Query отнимает больше времени - PullRequest
0 голосов
/ 01 октября 2019

У меня есть секционированная таблица, структура таблицы

create table tab1 
(
col1 int,
col2 string,
...
col50 int,
col51 int
)
partitioned by 
(col50 int, col51 int)
stored as orc;

В настоящее время у нас есть ~ 17000 разделов, и каждый раздел будет иметь минимум ~ 50 тыс. Записей.

Ниже запрос занимает больше времени ~ 90 минут

SELECT DISTINCT col2 FROM tab1
select col2 from (select col2, row_number() over (partition by col2 order by col3) as rnk from tab1) t1 where t1.rnk=1

Есть ли способ сократить время выполнения, заранее спасибо

...