SQL удалить почти повторяющиеся строки - PullRequest
5 голосов
/ 31 декабря 2010

У меня есть таблица, которая содержит, к сожалению, неверные данные, и я пытаюсь отфильтровать их. Я уверен, что комбинация LName, FName уникальна, поскольку набор данных достаточно мал для проверки.

LName, FName, Email
-----  -----  -----
Smith  Bob    bsmith@example.com
Smith  Bob    NULL
Doe    Jane   NULL
White  Don    dwhite@example.com

Я хотел бы, чтобы результаты запроса возвращали "дублирующуюся" запись, которая не имеет NULL-адреса электронной почты, но при этом возвращала бы NULL-электронную почту, когда ее нет.

* 1006 Е.Г. *

Smith Bob   bsmith@example.com
Doe   Jane  NULL
White Don   dwhite@example.com

Я думаю, что решение похоже на Sql, удаляйте дублирующиеся строки по значению , но я не совсем понимаю, совпадают ли требования автора с моими.

Есть предложения?

Спасибо

Ответы [ 4 ]

7 голосов
/ 31 декабря 2010

Вы можете использовать аналитическую функцию ROW_NUMBER ():

SELECT *
  FROM (
                SELECT a.*, ROW_NUMBER() OVER(PARTITION BY LName, FName ORDER BY Email DESC) rnk
                    FROM <YOUR_TABLE> a
                ) a
WHERE RNK = 1
7 голосов
/ 31 декабря 2010

Это удаляет пустые строки, если есть какие-либо ненулевые значения.

SELECT  lname
        , fname
        , MIN(email)
FROM    YourTable
GROUP BY
        lname
        , fname

Тестовый скрипт

DECLARE @Test TABLE (
  LName VARCHAR(32)
  , FName VARCHAR(32)
  , Email VARCHAR(32)
)

INSERT INTO @Test
  SELECT 'Smith', 'Bob', 'bsmith@example.com'
  UNION ALL SELECT 'Smith', 'Bob', 'NULL'
  UNION ALL SELECT 'Doe', 'Jane', 'NULL'
  UNION ALL SELECT 'White', 'Don', 'dwhite@example.com'

SELECT  lname
        , fname
        , MIN(Email)        
FROM    @Test
GROUP BY
        lname
        , fname
3 голосов
/ 31 декабря 2010

Вот сравнительно простой запрос, который использует стандартный SQL и делает именно это:

SELECT * FROM Person P
WHERE Email IS NOT NULL OR -- Take all people with non-null e-mails
      Email IS NULL AND    -- and all people with null e-mails, as long as
        NOT EXISTS         -- there is no duplicate record of the same person
          (SELECT *        -- with a non-null e-mail
           FROM Person P2 
           WHERE P2.LName=P.LName AND P2.FName=P.FName AND P2.Email IS NOT NULL)
1 голос
/ 31 декабря 2010

Поскольку уже опубликовано множество решений SQL, вы можете создать исправление данных, чтобы удалить неверные данные, а затем добавить необходимые ограничения, чтобы предотвратить вставку плохих данных.Плохие данные в базе данных являются побочным эффектом плохого дизайна.

...