Я бы предложил в двух словах использовать механизм загрузки файлов BQ из GCS .Это должен быть несжатый файл формата CSV, JSON, Avro или другой вспомогательный файл размером до 5 ТБ.Вы можете загрузить в загружаемом задании до 15 ТБ, что означает максимум три терафайла.
Облачное хранилище Google поддерживает изящную функцию под названием «составить»: она позволяет составлять большие двоичные объекты из 32 исходных больших двоичных объектов.,Вы можете сделать это из командной строки, выполнив:
gsutil compose \
gs://${BUCKET}/somedir/csv/train* \
gs://${BUCKET}/somedir/csv/full_training_data.csv
. Обратите внимание, что сейчас можно использовать только 32 файла, поэтому вам нужно делать это итерацией, если вы хотите создать более крупные, но меньшие файлы из этих 15k..
Имейте в виду, что для каждой таблицы существует ограничение в 1000 ежедневных заданий на загрузку, вы можете создать несколько таблиц и объединить их.Кроме того, ограничение нагрузки 50k на проект.
Каждая операция задания (запрос или загрузка) может затрагивать не более 2000 разделов.Вы можете ограничить до 5000 модификаций разделов в день для разделенной таблицы.Больше ограничений здесь .