Объедините перекрывающиеся интервалы и отслеживайте максимальное значение в BigQuery SQL - PullRequest
0 голосов
/ 07 июня 2019

Я пытаюсь решить проблему, в которой я хочу объединить перекрывающиеся интервалы для данного идентификатора столбца, но я также хочу отслеживать максимальное значение для каждого перекрывающегося интервала.У меня есть start_time и stop_time для каждого интервала, и каждый интервал имеет иерархию / приоритет, связанный с ним.

Это следующие столбцы в таблице: id, start_time, stop_time, some_value

пример ввода:

enter image description here

пример вывода:

enter image description here

Ответы [ 2 ]

1 голос
/ 07 июня 2019

Ниже приведено описание BigQuery Standard SQL, и я предполагаю, что вы продолжите работать над тем же сценарием использования, что и в предыдущем вопросе, поэтому я хотел сохранить его в соответствии с этим решением - и вы можете расширить его, если вы также хотите учестьприоритеты, например

Итак, в любом случае:

#standardSQL
WITH check_times AS (
  SELECT id, start_time AS TIME FROM `project.dataset.table` UNION DISTINCT
  SELECT id, stop_time AS TIME FROM `project.dataset.table` 
), distinct_intervals AS (
  SELECT id, TIME AS start_time, LEAD(TIME) OVER(PARTITION BY id ORDER BY TIME) stop_time
  FROM check_times
), deduped_intervals AS (
  SELECT a.id, a.start_time, a.stop_time, MAX(some_value) some_value 
  FROM distinct_intervals a
  JOIN `project.dataset.table` b
  ON a.id = b.id 
  AND a.start_time BETWEEN b.start_time AND b.stop_time 
  AND a.stop_time BETWEEN b.start_time AND b.stop_time
  GROUP BY a.id, a.start_time, a.stop_time
), combined_intervals AS (
  SELECT id, MIN(start_time) start_time, MAX(stop_time) stop_time, MAX(some_value) some_value 
  FROM (
    SELECT id, start_time, stop_time, some_value, COUNTIF(flag) OVER(PARTITION BY id ORDER BY start_time) grp
    FROM (
      SELECT id, start_time, stop_time, some_value,
        start_time != IFNULL(LAG(stop_time) OVER(PARTITION BY id ORDER BY start_time), start_time) flag
      FROM deduped_intervals
    )
  )
  GROUP BY id, grp
)
SELECT *
FROM combined_intervals
-- ORDER BY id, start_time

Если применить данные к вашему образцу - результат будет

Row id  start_time  stop_time   some_value   
1   1   0           36          50   
2   1   41          47          23    

Можно ли добавить одинеще столбец с результатом, который покажет количество событий за этот период времени

#standardSQL
WITH check_times AS (
  SELECT id, start_time AS TIME FROM `project.dataset.table` UNION DISTINCT
  SELECT id, stop_time AS TIME FROM `project.dataset.table` 
), distinct_intervals AS (
  SELECT id, TIME AS start_time, LEAD(TIME) OVER(PARTITION BY id ORDER BY TIME) stop_time
  FROM check_times
), deduped_intervals AS (
  SELECT a.id, a.start_time, a.stop_time, MAX(some_value) some_value, ANY_VALUE(To_JSON_STRING(b)) event_hash
  FROM distinct_intervals a
  JOIN `project.dataset.table` b
  ON a.id = b.id 
  AND a.start_time BETWEEN b.start_time AND b.stop_time 
  AND a.stop_time BETWEEN b.start_time AND b.stop_time
  GROUP BY a.id, a.start_time, a.stop_time
), combined_intervals AS (
  SELECT id, MIN(start_time) start_time, MAX(stop_time) stop_time, MAX(some_value) some_value, COUNT(DISTINCT event_hash) events
  FROM (
    SELECT *, COUNTIF(flag) OVER(PARTITION BY id ORDER BY start_time) grp
    FROM (
      SELECT *,
        start_time != IFNULL(LAG(stop_time) OVER(PARTITION BY id ORDER BY start_time), start_time) flag
      FROM deduped_intervals
    )
  )
  GROUP BY id, grp
)
SELECT *
FROM combined_intervals
-- ORDER BY id, start_time

с результатом

Row id  start_time  stop_time   some_value  events   
1   1   0           36          50          8    
2   1   41          47          23          1    
0 голосов
/ 07 июня 2019

Вы можете определить, когда начинается новая группировка, используя совокупный max(). Затем кумулятивный условный count() для выявления групп. , , и, наконец, агрегация:

select min(start_time), max(stop_time), max(some_value)
from (select t.*,
             countif(prev_stop_time is null or prev_stop_time < start_time) over (partition by id order by start_time) as grp
      from (select t.*,
                   max(stop_time) over (partition by id order by start_time rows between unbounded preceding and 1 preceding) as prev_stop_time
            from t
           ) t
     ) t
group by item_id, grp;
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...