У меня есть таблица Hive, в которой данные выглядят так -
У каждого клиента есть соответствующие счета, и цель состоит в том, чтобы создать пару внутри клиента,Пары основаны на том, имеют ли учетные записи один и тот же год рождения или их первые 3 имени одинаковы.Например, Сэм и Сэмюэль.
Вывод выглядит так -
В идеале не должна создаваться такая же пара счетов, как AA, XX и т. Д.Также пара AC и CA оба одинаковы, поэтому необходима только одна запись таких пар.Пара также может быть сформирована по имени и ключу года рождения, но здесь также требуется только одна запись (может быть кем угодно).
Как мне решить эту проблему.Тестовые данные для проверки -
create table customer_account(
customer INT NOT NULL,
accounts VARCHAR(100) NOT NULL,
name VARCHAR(40) NOT NULL,
yob DATE,
);
INSERT INTO
customer_account(customer,accounts,name,yob)
VALUES
(1,"A","John",2001),
(1,"X","Tom",1996),
(1,"C","Harry",2001),
(2,"D","Sam",1994),
(2,"F","Samuel",1995),
(3,"Z","Jake",)1994,
(3,"G","Drake",1998),
(3,"H","Arnold",1993),
(3,"K","Yang",1990)
;