Любое эффективное решение для этого - PullRequest
0 голосов
/ 06 февраля 2019
  declare 


       cursor cur1 is select * from address where aid in
        (select Min(aid) from address group by
        country,state,city,street_name,locality,house_no);

       cursor cur2 is select * from address;


        cur1_aid                address.aid%type;
        cur1_country            address.country%type;
        cur1_city               address.city%type;
        cur1_state              address.state%type;
        cur1_streetAddress      address.street_name%type;
        cur1_locality           address.locality%type;
        cur1_houseNo            address.house_no%type;


        cur2_aid                address.aid%type;
        cur2_country            address.country%type;
        cur2_city               address.city%type;
        cur2_state              address.state%type;
        cur2_streetAddress      address.street_name%type;
        cur2_locality           address.locality%type;
        cur2_houseNo            address.house_no%type;



begin 
         open cur1;
            loop
            fetch cur1 into cur1_aid,cur1_country,cur1_state,cur1_city,cur1_streetAddress,cur1_locality,cur1_houseNo;
            exit when cur1%NOTFOUND;
                open cur2;
                    loop
                    fetch cur2 into  cur2_aid,cur2_country,cur2_state,cur2_city,cur2_streetAddress,cur2_locality,cur2_houseNo;
                    exit when cur2%NOTFOUND;
                        if(cur1_country=cur2_country) and (cur1_state=cur2_state) and (cur1_city=cur2_city) and (cur1_streetAddress=cur2_streetAddress) and (cur1_locality=cur2_locality) and (cur1_houseNo=cur2_houseNo) then
                            if (cur1_aid!=cur2_aid) then
                                    update employee_add set aid=cur1_aid where aid=cur2_aid;
                                    delete address where aid=cur2_aid;
                            end if;
                        end if;
                    end loop;
                close cur2;
            end loop;
        close cur1;
    DELETE FROM employee_add a
    WHERE ROWID > (SELECT MIN(ROWID) FROM employee_add b
    WHERE b.eid=a.eid and b.aid=a.aid
    );
    end;
    /

У меня есть три таблицы Employee (eid, ename), Адрес (помощь, страна, штат, город, уличный адрес, населенный пункт, houseNo) и таблица отношений (M2M) MANY TO MANY TABLE employee_add (eid, aid),

Я хочу удалить дубликаты из таблицы адресов и таблицы employee_add без потери данных

1 Ответ

0 голосов
/ 26 февраля 2019

Предполагая, что это однократная дедупликация, вы могли бы:

  1. Создать новый временный набор отношений помощи eid <-> на основе текущего адреса, присвоенного сотруднику, и всегда выбирать мин.запись адреса с соответствующими данными (это то, что вы делаете выше)
  2. Удалить существующие отношения eid <-> aid
  3. Вставить новые отношения из шага 1, удалить данные шага 1
  4. Удалите адреса, к которым больше не прикреплен ни один сотрудник

Примерно так (не проверялось, поскольку вы не предоставили DDL или DML для создания рабочего примера):

-- Step 1
CREATE TABLE employee_add_new AS
  SELECT ea.eid,
         (SELECT MIN(a2.aid)
            FROM address a2
           WHERE a2.country = a.country
             AND a2.state = a.state
             AND a2.city = a.city
             AND a2.street_name = a.street_name
             AND a2.locality = a.locality
             AND a2.house_no = a.house_no) AS aid
    FROM employee_add ea
   INNER JOIN address a
      ON a.aid = ea.aid;

-- Step 2
TRUNCATE TABLE employee_add;

-- Step 3
INSERT INTO employee_add
  (eid,
   aid)
  SELECT eid,
         aid
    FROM employee_add_new;

DROP TABLE employee_add_new;

-- Step 4
DELETE FROM address a
 WHERE NOT EXISTS (SELECT NULL
          FROM employee_add ea
         WHERE ea.aid = a.aid);

Вы также можете изменить шаги 2 и 3, чтобы удалить существующую таблицу employee_add и переименовать employee_add_new в employee_add, но я понятия не имею, как выглядит структура вашей таблицы (столбцы, FK, индексы и т. Д.).

...