Сравнение нескольких больших наборов данных для дубликатов в больших запросах - PullRequest
0 голосов
/ 12 марта 2019

У меня ограниченный опыт работы с soql для salesforce, и мне нужно применить это к этой проблеме в bigquery.

Контекст: У меня есть 4 разных набора данных с разными именами столбцов и порядком в диапазоне от 7000 до 35000 строк, все четыре содержат повторяющиеся строки внутри себя, и дубликаты распределяются между ними.

Цель: Я хочу один набор данных без повторяющихся строк.

Моя интуиция: Я чувствую, что должен нормализовать имена столбцов, добавить их все в одну таблицу и использовать этот подход Удалить дублирующиеся данные в bigquery

В то же время я чувствую, что, может быть, лучше загрузить каждый набор данных в свою таблицу и использовать соединения или что-то еще для записи в новую таблицу. У меня действительно нет опыта в этой области, чтобы принимать обоснованные решения.

Я выбрал BigQuery Soley, потому что у меня есть доступ к нему, если есть лучшее решение, я открыт.

1 Ответ

0 голосов
/ 12 марта 2019

Вы можете использовать union:

select a as x, b as y, c as z
from table1
union distinct
select d, e, f
from table2
union distinct
select g, h, i
from table3
union distinct
select j, k, l
from table4;

union удаляет дубликаты как внутри таблиц, так и между таблицами. Это вернет столбцы с именами x, y и z.

...