группировка данных по соответствующим значениям на сервере sql - PullRequest
0 голосов
/ 30 августа 2011

данные с 15-минутным интервалом:

Time               Value
2010-01-01 00:15   3
2010-01-01 00:30   2
2010-01-01 00:45   4
2010-01-01 01:00   5
2010-01-01 01:15   1
2010-01-01 01:30   3
2010-01-01 01:45   4
2010-01-01 02:00   12
2010-01-01 02:15   13
2010-01-01 02:30   12
2010-01-01 02:45   14
2010-01-01 03:00   15
2010-01-01 03:15   3
2010-01-01 03:30   2
2010-01-01 03:45   3
2010-01-01 04:00   5
..........
..........
..........
2010-01-02 00:00

Обычно набирается 96 очков.

В соответствии со значениями мы можем заметить, что значения от 00:15 до 01:45 близки друг к другу, а с 02:00 до 03:00 они близки друг к другу, а с 03:15 до 04:00 они близко друг к другу.

Основываясь на правиле "близко друг к другу", я хочу, чтобы данные были "сгруппированы" в 3 части:

  • 00: 15 до 01: 45
  • 02: 00–03: 00
  • 03: 15–04: 00

Пожалуйста, примите во внимание, что данные могут быть случайными и могут быть сгруппированы более чем в 3 части в соответствии с правилом, определенным выше, но максимум не должен превышать 10 частей. И группировка должна учитывать временную последовательность, например, вы не можете просто поместить 00: 15/02: 30/04: 45 в 1 группу, потому что эти 3 пункта НЕ являются последовательными.

Пожалуйста, расскажите, как реализовать это в t-sql.

Последнее обновление: Значение может быть:

Time               Value
2010-01-01 00:15   3
2010-01-01 00:30   2
2010-01-01 00:45   4
2010-01-01 01:00   5
2010-01-01 01:15   1
2010-01-01 01:30   3
2010-01-01 01:45   4
2010-01-01 02:00   12
2010-01-01 02:15   13
2010-01-01 02:30   4  --suddenly decreased
2010-01-01 02:45   14
2010-01-01 03:00   15
2010-01-01 03:15   3
2010-01-01 03:30   2
2010-01-01 03:45   3
2010-01-01 04:00   5
..........
..........
..........
2010-01-02 00:00

для таких ситуаций нам не следует группировать 02:30 отдельно, потому что мы хотим, чтобы размер группы был не менее 3 баллов, и мы поместим эту точку (02:30) в предыдущую группу (от 02 : С 00 до 03:00).

Ответы [ 2 ]

7 голосов
/ 30 августа 2011

Объявление и заполнение тестовых данных:

set nocount on
declare @result table(mintime datetime, maxtime datetime)
declare @t table(time datetime, value int)

-- variation is how much difference will be allowed from one row to the next
declare @variation int
set @variation = 5     

insert @t values('2010-01-01 00:15',3)
insert @t values('2010-01-01 00:30',2)
insert @t values('2010-01-01 00:45',4)
insert @t values('2010-01-01 01:00',5)
insert @t values('2010-01-01 01:15',1)
insert @t values('2010-01-01 01:30',3)
insert @t values('2010-01-01 01:45',4)
insert @t values('2010-01-01 02:00',12)
insert @t values('2010-01-01 02:15',13)
insert @t values('2010-01-01 02:30',12)
insert @t values('2010-01-01 02:45',14)
insert @t values('2010-01-01 03:00',15)
insert @t values('2010-01-01 03:15',3)
insert @t values('2010-01-01 03:30',2)
insert @t values('2010-01-01 03:45',3)
insert @t values('2010-01-01 04:00',5)

Код:

a:

;with t as
( -- add a rownumber
select *, rn = row_number() over(order by time) from @t
), a as
(-- increase group if current row's value varies more than @variation from last row's value
select time, value, rn, 0 grp from t where rn = 1
union all
select t.time, t.value, t.rn, case when t.value between 
       a.value - @variation and a.value +@variation 
       then grp else grp+1 end 
from t join a on 
t.rn = a.rn +1
)
insert @result
select min(time), max(time) from a group by grp


if @@rowcount > 10 
begin 
    -- this will activate if more than 10 groups of numbers are found
    -- start over with higher tolerance for variation
    set @variation=@variation + 1 
    delete @result
    goto a 
end

select convert(char(5), mintime,114) + ' to ' + convert(char(5), maxtime,114)
from @result

Результат здесь: http://data.stackexchange.com/stackoverflow/q/110891/declare-and-populate-testdata

0 голосов
/ 31 августа 2011

Поскольку ваш вопрос так сильно изменился, вот новый ответ на новый вопрос, я включил только часть кода.

declare @t table(time datetime, value int)
declare @variation float
set @variation = 2
set nocount on

insert @t values('2010-01-01 00:15',3)
insert @t values('2010-01-01 00:30',2)
insert @t values('2010-01-01 00:45',4)
insert @t values('2010-01-01 01:00',5)
insert @t values('2010-01-01 01:15',1)
insert @t values('2010-01-01 01:30',3)
insert @t values('2010-01-01 01:45',4)
insert @t values('2010-01-01 02:00',52)
insert @t values('2010-01-01 02:15',5)
insert @t values('2010-01-01 02:30',52)
insert @t values('2010-01-01 02:45',54)
insert @t values('2010-01-01 03:00',55)
insert @t values('2010-01-01 03:15',3)
insert @t values('2010-01-01 03:30',2)
insert @t values('2010-01-01 03:45',3)
insert @t values('2010-01-01 04:00',5)


declare @result table(mintime datetime, maxtime datetime)
a:
delete @result

;with t as
(
select *, rn = row_number() over(order by time), log(value) lv from @t where datediff(day, time, '2010-01-01') = 0
), a as
(
select time, lv, rn, 0 grp from t where rn = 1
union all
select t1.time, a.lv, t1.rn, 
case when exists (select 1 from t t2 where t1.rn between rn + 1 and rn + 3 and 
lv between t1.lv - @variation and t1.lv +@variation) then grp else grp + 1 end
from t t1 join a on 
t1.rn = a.rn +1
)
insert @result
select min(time), max(time) from a group by grp

if @@rowcount > 10 
begin 
    set @variation=@variation + .5 
    goto a 
end

select * from @result

Результат:

mintime                     maxtime
2010-01-01 00:15:00.000     2010-01-01 01:45:00.000
2010-01-01 02:00:00.000     2010-01-01 03:00:00.000
2010-01-01 03:15:00.000     2010-01-01 04:00:00.000
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...