У меня есть таблица из примерно 100 тыс. Строк со следующим макетом:
+----+-----------+------------+-------------------+
| ID | PIN | RAID | Desired Output ID |
+----+-----------+------------+-------------------+
| 1 | 80602627 | 1737852-1 | 1 |
| 2 | 80602627 | 34046655-1 | 1 |
| 3 | 351418172 | 33661 | 2 |
| 4 | 351418172 | 33661 | 2 |
| 5 | 351418172 | 33661 | 2 |
| 6 | 351418172 | 34443321-1 | 2 |
| 7 | 491863017 | 26136 | 3 |
| 8 | 491863017 | 34575 | 3 |
| 9 | 491863017 | 34575 | 3 |
| 10 | 661254727 | 26136 | 3 |
| 11 | 661254727 | 26136 | 3 |
| 12 | NULL | 7517 | 4 |
| 13 | NULL | 7517 | 4 |
| 14 | NULL | 7517 | 4 |
| 15 | NULL | 7517 | 4 |
| 16 | NULL | 7517 | 4 |
| 17 | 554843813 | 33661 | 2 |
| 18 | 554843813 | 33661 | 2 |
+----+-----------+------------+-------------------+
Столбец ID имеет уникальные значения, причем столбцы PIN и RAID представляют собой два отдельных идентификационных номера, используемых для группировки связанных идентификаторов вместе. Столбец Desired Output ID - это то, что я хотел бы сделать SQL, по сути, глядя на столбцы PIN и RAID, чтобы определить, где между ними есть какие-либо отношения.
Так, например, Where Desired Output ID = 2 , Идентификаторы 3-6 совпадают с PIN-кодом = 351418172, а затем идентификаторы 17-18 также совпадают, поскольку RAID 33661 был в строках для идентификаторов 3-5.
Чтобы добавить, NULL будут в Столбец PIN, но не в других.
Я заметил похожий вопрос Текст , однако, поскольку он находится в BigQuery, я не был уверен, что это поможет.
Пытались взломать это какое-то время безуспешно, любая помощь очень ценится.