Я столкнулся с запросом Hive, вычисляющим count distinct без группировки, который выполняется очень медленно. Поэтому мне было интересно, как эта функциональность реализована в Hive, есть ли UDAFCountDistinct для этого?
count distinct
UDAFCountDistinct
Hive 1.2.0+ обеспечивает оптимизацию автоматического перезаписи для подсчета (различается) . Проверьте эту настройку:
hive.optimize.distinct.rewrite=true;