SQL Server: только последняя запись в GROUP BY - PullRequest
4 голосов
/ 13 января 2009

У меня есть следующая таблица в MSSQL2005

id | business_key | result
1 | 1 | 0
2 | 1 | 1
3 | 2 | 1
4 | 3 | 1
5 | 4 | 1
6 | 4 | 0

А теперь я хочу сгруппировать на основе business_key, возвращающего полную запись с самым высоким идентификатором. Итак, мой ожидаемый результат:

business_key | result
1 | 1
2 | 1
3 | 1
4 | 0

Могу поспорить, что есть способ достичь этого, я просто не вижу его в данный момент.

Ответы [ 5 ]

11 голосов
/ 13 января 2009

Альтернативное решение, которое может дать вам лучшую производительность (протестируйте оба способа и проверьте планы выполнения):

SELECT
     T1.id,
     T1.business_key,
     T1.result
FROM
     dbo.My_Table T1
LEFT OUTER JOIN dbo.My_Table T2 ON
     T2.business_key = T1.business_key AND
     T2.id > T1.id
WHERE
     T2.id IS NULL

В этом запросе предполагается, что идентификатор является уникальным значением (по крайней мере, для любого данного ключа business_key) и для него установлено значение NOT NULL.

4 голосов
/ 13 января 2009
select
  drv.business_key,
  mytable.result
from mytable
  inner join
  (
    select 
      business_key, 
      max(id) as max_id
    from mytable
    group by
      business_key
  ) as drv on
    mytable.id = drv.max_id
2 голосов
/ 15 января 2009
select business_key, 
       result
    from 
    (select id, 
        business_key, 
        result, 
        max(id) over (partition by business_key) as max_id
    from mytable) x
where id = max_id
2 голосов
/ 13 января 2009

Попробуйте это

select  business_key, 
        result
from    myTable
where   id in 
        (select max(id)
        from    myTable
        group by business_key)

РЕДАКТИРОВАТЬ: я создал таблицу для проверки моего кода. Я включаю его ниже на случай, если кто-то еще захочет это проверить.

SET ANSI_NULLS ON
GO
SET QUOTED_IDENTIFIER ON
GO
CREATE TABLE [dbo].[myTable](
    [id] [int] NOT NULL,
    [business_key] [int] NOT NULL,
    [result] [int] NOT NULL
) ON [PRIMARY]
go

insert into myTable values(1,1,0);
insert into myTable values(2,1,1);
insert into myTable values(3,2,1);
insert into myTable values(4,3,1);
insert into myTable values(5,4,1);
insert into myTable values(6,4,0);

select  * from mytable
1 голос
/ 27 сентября 2013

Это более старая запись, но она была связана с тем, что я делал в настоящее время (2013). Если вы получаете больший набор данных (типичный для большинства БД), производительность различных запросов (с точки зрения планов выполнения) говорит о многом. Сначала мы создаем «таблицу TALLY» для случайного генерирования чисел, затем используем произвольную формулу для создания данных для «MyTable»:

CREATE TABLE #myTable(
    [id] [int] NOT NULL,
    [business_key] [int] NOT NULL,
    [result] [int] NOT NULL,
    PRIMARY KEY (Id)
) ON [PRIMARY];

; WITH
    -- Tally table Gen            Tally Rows:     X2                X3
t1 AS (SELECT 1 N UNION ALL SELECT 1 N),    -- 4            ,    8
t2 AS (SELECT 1 N FROM t1 x, t1 y),            -- 16            ,    64
t3 AS (SELECT 1 N FROM t2 x, t2 y),            -- 256            ,    4096
t4 AS (SELECT 1 N FROM t3 x, t3 y),            -- 65536        ,    16,777,216
t5 AS (SELECT 1 N FROM t4 x, t4 y),            -- 4,294,967,296,    A lot
Tally AS (SELECT ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) N
          FROM t5 x, t5 y)

INSERT INTO #MyTable 
SELECT N, CAST(N/RAND(N/8) AS bigINT)/5 , N%2
FROM Tally
WHERE N < 500000

Затем мы запускаем три различных типа запросов для проверки производительности (включите «Фактический план выполнения», если вы используете SQL Server Management Studio):

SET STATISTICS IO ON
SET STATISTICS TIME ON
----- Try #1 
select  'T1' AS Qry, id, business_key, 
        result
from    #myTable
where   id in 
        (select max(id)
        from    #myTable
        group by business_key)

---- Try #2 
select 'T2' AS Qry, id, business_key, 
       result
    from 
    (select id, 
        business_key, 
        result, 
        max(id) over (partition by business_key) as max_id
    from #mytable) x
where id = max_id

---- Try #3 
;with cteRowNumber as (
    select id, 
        business_key, 
        result,
           row_number() over(partition by business_key order by id desc) as RowNum
        from #mytable
)

SELECT 'T3' AS Qry, id, business_key, 
       result
FROM cteRowNumber
WHERE RowNum = 1

Очистка:

IF OBJECT_ID(N'TempDB..#myTable',N'U') IS NOT NULL 
    DROP TABLE #myTable;
    SET STATISTICS IO OFF
SET STATISTICS TIME OFF

Вы увидите, что, посмотрев планы выполнения, «Try 1» имеет лучшую «Query Cost» и наименьшее время ЦП, но «Try 3» имеет наименьшее количество считываний, и время CPU не так уж плохо Я бы рекомендовал использовать метод CTE для наименьших чтений

...