Выявление отношений между парами данных - PullRequest
0 голосов
/ 25 сентября 2019

У меня есть данные клиентов, которые можно объединить из разных источников в один.Я определил пары, которые я хочу объединить в 1 запись. 1 запись может соответствовать более чем одной записи.то есть

A-B
A-C
A-D
A-E
B-F
B-G
H-I
H-J
J-K

fi свернуть A с B, новая запись создана, и две исходные записи больше не существуют, поэтому я не могу свернуть A с C. Поэтому мне нужно выяснить, как определить, что A, B, C, D и E связаны через различные уровни отношений и разрушаются все 5 одновременно.

Чтобы усложнить задачу, B может также совпадать с F, G и H. Мне нужно идентифицировать по 10 тыс. Строк и 2 столбцов справочника клиента, все из которых имеют отношение.

Я изначально извлек данные из таблиц SQL в Excel для анализа.Теперь, когда у меня есть идентифицированные совпадающие пары, я чувствую себя лучше, чтобы экспортировать данные обратно в SQL.

Я думаю, что решение состоит в том, чтобы начать с двух ссылок на клиентов первой пары, A и B. Затем выполнить поиск в двух столбцах.где А и В появляются снова.Это может обеспечить в общей сложности 4 пары.Затем мне нужно найти отзывы клиентов об этих 4 парах (8 ссылок, но не все уникальные) в 2 столбцах.Продолжайте повторять этот процесс до тех пор, пока не будет найдено больше пар и, в свою очередь, не будет найдено больше ссылок на обычные файлы.Все уникальные ссылки на обычные записи во всех парах, которые должны быть объединены, разделены |

У меня нет кода, но есть визуальное представление о том, чего я пытаюсь достичь

Исходные данные, 2столбцы ссылок клиентов, 10 тыс. строк.

A - B
A - C
A - D
B - C
B - E
E - F

Подтвержденные пары,

A - B
A - C

Шаг 1 Возьмите первую подтвержденную пару, A - B Найдите оба столбца исходных данных для A илиB. В результате будет получено несколько строк.

A - B
A - C
A - D
B - C
B - E

Шаг 2 Просмотрите оба столбца исходных данных для увеличения объема обращений клиентов.Это приведет к большему количеству строк.

Шаг 3 Повторяйте, пока количество найденных строк не увеличится.Это означает, что все взаимодействия исчерпаны.

Шаг 4 Идентифицируйте все уникальные ссылки и выходные данные Custoemr в одной строке.

 A|B|C|D|E|F

Шаг 5 Перейдите к следующей строке отзывов клиентов.Если они были обнаружены для коллапса в предыдущем раунде, переходите к следующему ряду.Если это еще не сделано, повторите шаги с 2 по 4.

Шаг 6 Продолжайте повторять до конца.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...