Если у вас есть большой объем данных в BigQuery и вы хотите выполнить преобразование для него, одним из возможных решений будет использование возможности на основе GCP под названием Dataflow.Поток данных - это управляемая служба Googles, основанная на Apache Beam.Используя эту технологию, можно написать конвейер с BigQuery в качестве источника и приемника.Поток данных специально разработан для обработки чрезвычайно больших объемов данных и может распараллеливать работу автоматически.Кроме того, поскольку все это выполняется в GCP, при чтении или записи данных не возникает значительных задержек, которые могли бы быть обнаружены, если бы вы передавали их через Интернет.Поток данных позволяет программисту писать преобразования в Java или Python.
В зависимости от вашего преобразования, более высокий уровень (но похожая история) может быть использован службой Google Dataprep.Dataprep предоставляет механизм высокого уровня (бизнес-уровня) для преобразования данных без какого-либо программирования.Используя Dataprep, каждый описывает преобразование на гораздо более высоком уровне, который в конечном итоге автоматически создает и запускает задание Datalow от вашего имени.