Ошибка семантического исключения в HIVE при использовании оконной функции last_value - PullRequest
0 голосов
/ 25 октября 2018

У меня есть таблица со следующими данными:

dt  device  id  count
2018-10-05  computer    7541185957382   6
2018-10-20  computer    7541185957382   3
2018-10-14  computer    7553187775734   6
2018-10-17  computer    7553187775734   10
2018-10-21  computer    7553187775734   2
2018-10-22  computer    7549187067178   5
2018-10-20  computer    7553187757256   3
2018-10-11  computer    7549187067178   10

Я хочу получить последний и первый dt для каждого id.Следовательно, я использовал оконные функции first_value и last_value следующим образом:

select id,last_value(dt) over (partition by id order by dt) last_dt
from table
order by id
;

Но я получаю эту ошибку:

FAILED: SemanticException Failed to breakup Windowing invocations into Groups. At least 1 group must only depend on input columns. Also check for circular dependencies.
Underlying error: Primitve type DATE not supported in Value Boundary expression

Я не могу диагностировать проблему, и я быпризнателен за любую помощь.

1 Ответ

0 голосов
/ 25 октября 2018

Если вы добавите строк между предложением в запросе, ваш запрос будет работать нормально.

hive> select id,last_value(dt) over (partition by id order by dt 
      rows between unbounded preceding and unbounded following) last_dt 
      from table order by id;

Результат:

+----------------+-------------+--+
|       id       |   last_dt   |
+----------------+-------------+--+
| 7541185957382  | 2018-10-20  |
| 7541185957382  | 2018-10-20  |
| 7549187067178  | 2018-10-22  |
| 7549187067178  | 2018-10-22  |
| 7553187757256  | 2018-10-20  |
| 7553187775734  | 2018-10-21  |
| 7553187775734  | 2018-10-21  |
| 7553187775734  | 2018-10-21  |
+----------------+-------------+--+

Существует Jira в отношении поддержки примитивного типа и исправлено в Hive.2.1.0

ОБНОВЛЕНИЕ:

Для отдельных записей вы можете использовать ROW_NUMBER оконную функцию и отфильтровывать только first row из набора результатов.

hive> select id,last_dt from 
          (select id,last_value(dt) over (partition by id order by dt 
              rows between unbounded preceding and unbounded following) last_dt,
              ROW_NUMBER() over (partition by id order by dt)rn 
              from so )t 
           where t.rn=1;

Результат:

+----------------+-------------+--+
|       id       |     dt      |
+----------------+-------------+--+
| 7541185957382  | 2018-10-20  |
| 7553187757256  | 2018-10-20  |
| 7553187775734  | 2018-10-21  |
| 7549187067178  | 2018-10-22  |
+----------------+-------------+--+
...