В архитектуре хранилищ данных обычно рекомендуется иметь постоянный промежуточный уровень.Это дает вам, среди прочего, возможность проследить происхождение данных до источника, дать возможность перезагрузить вашу окончательную модель из промежуточной точки при изменении бизнес-правил, а также дать полное представление о шагах преобразования, через которые прошли данные со всехпуть от посадки до создания отчетов.
Я бы также рассмотрел возможность изменения вашего дизайна и сохранения промежуточного слоя под собственным набором данных в BigQuery, а не просто удаления файлов после обработки.
Поскольку этопросто рабочий уровень для ETL / ELT, а не для отчетов конечных пользователей, по большей части вы будете платить только за хранилище.
Теперь, возвращаясь к вашему вопросу и учитывая ваш текущий дизайн, вы можете создатьведите в Google Cloud Storage и храните там свои файлы трансформации.Он предлагает всю необходимую вам защиту и шифрование, и вы имеете полный контроль над разрешениями.Big Query, похоже, работает с облачным хранилищем, и вы даже можете загрузить таблицу из файла хранилища прямо из облачной консоли.
С учетом всех обстоятельств, в каком бы направлении вы ни выбрали, я рекомендую хранить файлы, которые вы используете длязагрузить таблицу, а не удалять их.Рано или поздно в вашем итоговом отчете будут возникать вопросы / сбои, и вам, вероятно, придется искать источник расследования.
В двух словах.Процесс будет.
|---Extract and Transform---|----Load----|
Source ---> Cloud Storage --> BigQuery