У меня ограниченный опыт работы с soql для salesforce, и мне нужно применить это к этой проблеме в bigquery.
Контекст:
У меня есть 4 разных набора данных с разными именами столбцов и порядком в диапазоне от 7000 до 35000 строк, все четыре содержат повторяющиеся строки внутри себя, и дубликаты распределяются между ними.
Цель:
Я хочу один набор данных без повторяющихся строк.
Моя интуиция:
Я чувствую, что должен нормализовать имена столбцов, добавить их все в одну таблицу и использовать этот подход Удалить дублирующиеся данные в bigquery
В то же время я чувствую, что, может быть, лучше загрузить каждый набор данных в свою таблицу и использовать соединения или что-то еще для записи в новую таблицу. У меня действительно нет опыта в этой области, чтобы принимать обоснованные решения.
Я выбрал BigQuery Soley, потому что у меня есть доступ к нему, если есть лучшее решение, я открыт.