Поиск повторяющихся значений в таблице SQL - PullRequest
1675 голосов
/ 07 апреля 2010

Легко найти duplicates с одним полем:

SELECT name, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

Так что, если у нас есть таблица

ID   NAME   EMAIL
1    John   asd@asd.com
2    Sam    asd@asd.com
3    Tom    asd@asd.com
4    Bob    bob@asd.com
5    Tom    asd@asd.com

Этот запрос даст нам Джон, Сэм,Том, Том , потому что все они имеют один и тот же email.

Однако, я хочу получить дубликаты с одинаковыми email и name.

То естьЯ хочу получить "Том", "Том".

Причина, по которой мне это нужно: я допустил ошибку и позволил вставить дубликаты name и email.Теперь мне нужно удалить / изменить дубликаты, поэтому мне нужно найти их в первую очередь.

Ответы [ 28 ]

2657 голосов
/ 07 апреля 2010
SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

Просто сгруппируйте по обоим столбцам.

Примечание: более старый стандарт ANSI должен иметь все неагрегированные столбцы в GROUP BY, но это изменилось с идеей "функциональная зависимость ":

В теории реляционных баз данных функциональная зависимость - это ограничение между двумя наборами атрибутов в отношении из базы данных.Другими словами, функциональная зависимость - это ограничение, которое описывает отношение между атрибутами в отношении.

Поддержка не согласована:

332 голосов
/ 07 апреля 2010

попробуйте это:

declare @YourTable table (id int, name varchar(10), email varchar(50))

INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')

SELECT
    name,email, COUNT(*) AS CountOf
    FROM @YourTable
    GROUP BY name,email
    HAVING COUNT(*)>1

ВЫВОД:

name       email       CountOf
---------- ----------- -----------
John       John-email  2
sam        sam-email   2

(2 row(s) affected)

, если вы хотите идентификаторы дупс, используйте это:

SELECT
    y.id,y.name,y.email
    FROM @YourTable y
        INNER JOIN (SELECT
                        name,email, COUNT(*) AS CountOf
                        FROM @YourTable
                        GROUP BY name,email
                        HAVING COUNT(*)>1
                    ) dt ON y.name=dt.name AND y.email=dt.email

ВЫВОД:

id          name       email
----------- ---------- ------------
1           John       John-email
2           John       John-email
5           sam        sam-email
6           sam        sam-email

(4 row(s) affected)

для удаления дубликатов попробуйте:

DELETE d
    FROM @YourTable d
        INNER JOIN (SELECT
                        y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
                        FROM @YourTable y
                            INNER JOIN (SELECT
                                            name,email, COUNT(*) AS CountOf
                                            FROM @YourTable
                                            GROUP BY name,email
                                            HAVING COUNT(*)>1
                                        ) dt ON y.name=dt.name AND y.email=dt.email
                   ) dt2 ON d.id=dt2.id
        WHERE dt2.RowRank!=1
SELECT * FROM @YourTable

ВЫХОД:

id          name       email
----------- ---------- --------------
1           John       John-email
3           fred       John-email
4           fred       fred-email
5           sam        sam-email

(4 row(s) affected)
105 голосов
/ 07 апреля 2010

Попробуйте это:

SELECT name, email
FROM users
GROUP BY name, email
HAVING ( COUNT(*) > 1 )
57 голосов
/ 14 марта 2016

Если вы хотите удалить дубликаты, вот гораздо более простой способ сделать это, чем найти четные / нечетные строки в тройном суб-выборе:

SELECT id, name, email 
FROM users u, users u2
WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id

И так, чтобы удалить:

DELETE FROM users
WHERE id IN (
    SELECT id/*, name, email*/
    FROM users u, users u2
    WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id
)

Гораздо проще читать и понимать ИМХО

Примечание: Единственная проблема заключается в том, что вам нужно выполнить запрос, пока не будет удалено ни одной строки, поскольку каждый раз удаляется только 1 из каждого дубликата

37 голосов
/ 31 декабря 2013

Попробуйте следующее:

SELECT * FROM
(
    SELECT Id, Name, Age, Comments, Row_Number() OVER(PARTITION BY Name, Age ORDER By Name)
        AS Rank 
        FROM Customers
) AS B WHERE Rank>1
26 голосов
/ 22 июля 2015
 SELECT name, email 
    FROM users
    WHERE email in
    (SELECT email FROM users
    GROUP BY email 
    HAVING COUNT(*)>1)
19 голосов
/ 17 ноября 2015

Немного опоздал на вечеринку, но я нашел действительно крутой способ найти все дубликаты ID:

SELECT GROUP_CONCAT( id )
FROM users
GROUP BY email
HAVING ( COUNT(email) > 1 )
17 голосов
/ 13 сентября 2014

попробуйте этот код

WITH CTE AS

( SELECT Id, Name, Age, Comments, RN = ROW_NUMBER()OVER(PARTITION BY Name,Age ORDER BY ccn)
FROM ccnmaster )
select * from CTE 
14 голосов
/ 16 июня 2014

Если вы работаете с Oracle, этот способ будет предпочтительнее:

create table my_users(id number, name varchar2(100), email varchar2(100));

insert into my_users values (1, 'John', 'asd@asd.com');
insert into my_users values (2, 'Sam', 'asd@asd.com');
insert into my_users values (3, 'Tom', 'asd@asd.com');
insert into my_users values (4, 'Bob', 'bob@asd.com');
insert into my_users values (5, 'Tom', 'asd@asd.com');

commit;

select *
  from my_users
 where rowid not in (select min(rowid) from my_users group by name, email);
14 голосов
/ 22 февраля 2017

Выбирает / удаляет все дублирующиеся записи, кроме одной записи из каждой группы дубликатов.Таким образом, удаление оставляет все уникальные записи + одну запись из каждой группы дубликатов.

Выбор дубликатов:

SELECT *
FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

Удаление дубликатов:

DELETE FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

Помните о большом количестве записей, это может вызвать проблемы с производительностью.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...