Hue отдельных пользователей в 7 дней - PullRequest
3 голосов
/ 13 мая 2019

Я провел 3 дня, исследуя это и пытаясь понять это, но безуспешно.Сейчас я думаю просто загрузить данные в новую таблицу по одному разу (это заняло бы слишком много времени и не хотелось бы этого делать).

У меня есть таблица с просмотрами страниц для веб-сайта.в этом.Он находится в таблице Hive, и я обращаюсь к данным с помощью Hue.У этого есть отличный идентификатор пользователя, идентификатор сессии, дата и страница.Мы получаем около 16 миллионов просмотров в день на 30 разных страницах.

Я пытаюсь создать количество просмотров страниц, различное количество пользователей и 7-дневное скользящее число различных пользователей.Таким образом, отдельные пользователи за день и отдельные пользователи за неделю, ведущую к этому дню.примеры ниже.

Я пытался использовать раздел по выражению, но безуспешно.Я пытался соединить таблицу с самим собой, а также с таблицей date_dimension, но с таблицей из 16 миллионов строк в день Hue зависает и никогда не завершает запрос

Вот код, который у меня естьвсего на один день, но мне нужно расширить его на весь прошлый год вместо того, чтобы вводить данные в новую таблицу по одному разу.Очевидно, что необходимо заменить жестко закодированные даты.

SELECT '2019-04-07' AS Temp_Date
    , t.pageview
    , COUNT (DISTINCT CASE WHEN t.dates = '2019-04-07' THEN User_ID END) AS Users
    , COUNT (DISTINCT User_ID) AS 7Day_Users
    , COUNT (CASE WHEN t.dates = '2019-04-07' THEN User_ID END) AS Views
    , COUNT (*) AS 7Day_Views
FROM(

SELECT pageview
    , User_ID
    , Date

FROM ar3.t59_4_1 

WHERE Date BETWEEN '2019-04-01' AND '2019-04-07'
) t
GROUP BY '2019-04-07'
    ,t.pageview

Пример таблицы результатов для текущего кода:

Temp_Date  pageview  Users  7Day_users  Views  7Day_views
2019-04-07  Home     5467     28754      8765   51624
2019-04-07  About    150      548        324    3429
2019-04-07  Store    26345    128754     33247  354324
2019-04-07  Blog     856      28754      8765   54324
2019-04-07  FAQ      32       187        65     478

Фактические результаты намного длиннее.Ожидаемый результат - иметь это на каждый день.

Temp_Date  pageview  Users  7Day_users  Views  7Day_views
2019-04-07  Home     5467     28754      8765   51624
2019-04-07  About    150      548        324    3429
2019-04-07  Store    26345    128754     33247  354324
2019-04-07  Blog     856      28754      8765   54324
2019-04-07  FAQ      32       187        65     478
2019-04-06  Home     5467     28754      8765   51624
2019-04-06  About    150      548        324    3429
2019-04-06  Store    26345    128754     33247  354324
2019-04-06  Blog     856      28754      8765   54324
2019-04-06  FAQ      32       187        65     478
2019-04-05  Home     5467     28754      8765   51624
2019-04-05  About    150      548        324    3429
2019-04-05  Store    26345    128754     33247  354324
2019-04-05  Blog     856      28754      8765   54324
2019-04-05  FAQ      32       187        65     478
2019-04-04  Home     5467     28754      8765   51624
2019-04-04  About    150      548        324    3429
2019-04-04  Store    26345    128754     33247  354324
2019-04-04  Blog     856      28754      8765   54324
2019-04-04  FAQ      32       187        65     478
...etc. (continues for all days in past 12 months)
...