Hive: по запросу не отображаются результаты - PullRequest
1 голос
/ 02 июня 2019

Я пишу запрос к этой таблице, чтобы получить сумму по размеру для всех каталогов, сгруппировать по каталогам, где дата вчера.Я не получаю вывод из запроса ниже.

test.id        test.path           test.size     test.date
1   this/is/the/path1/fil.txt      232.24           2019-06-01
2   this/is/the/path2/test.txt     324.0            2016-06-01
3   this/is/the/path3/index.txt    12.3             2017-05-01
4   this/is/the/path4/test2.txt    134.0            2019-03-23
5   this/is/the/path1/files.json   2.23             2018-07-23
6   this/is/the/path1/code.java    1.34             2014-03-23
7   this/is/the/path2/data.csv     23.42            2016-06-23
8   this/is/the/path3/test.html    1.33             2018-09-23
9   this/is/the/path4/prog.js      6.356            2019-06-23
4   this/is/the/path4/test2.txt    134.0            2019-04-23

SELECT regexp_replace(path,'[^/]+$',''), sum(cast(size as decimal)) 
from test WHERE date > date_sub(current_date, 1) GROUP BY path,size;

Ответы [ 2 ]

2 голосов
/ 02 июня 2019

Вы не должны group by size, только на regexp_replace(path,'[^/]+$','').
Кроме того, поскольку вам нужны только вчерашние строки, почему вы используете WHERE date > '2019%?
Вы можете получить вчерашнюю дату с date_sub(current_date, 1):

select 
  regexp_replace(path,'[^/]+$',''), 
  sum(cast(size as decimal)) 
from test 
where date = date_sub(current_date, 1) 
group by regexp_replace(path,'[^/]+$','');
0 голосов
/ 02 июня 2019

Вы, вероятно, хотите WHERE date >= '2019-01-01'.Использование % в соответствующих строках, например, 2019%, работает только с LIKE, а не с неравенством.

Приведенный вами пример выглядит так, как будто вы хотите, чтобы все строки были в 2019 календарном году.

Для вчерашнего дня вы хотите

  WHERE date >= DATE_SUB(current_date, -1)
    AND date < current_date

Это работает, даже если ваш столбец date содержит метки времени.

...