Загрузите таблицы BQ с помощью python клиентских библиотек в хранилище данных. Необходим анализ затрат. ETL против ELT - PullRequest
0 голосов
/ 26 мая 2020

Мне нужно разработать хранилище данных, которое требует от меня загрузки JSON данных в таблицы Big Query с использованием Python. Столбцы также должны быть привязаны к определенным типам данных. Какой подход я должен использовать, чтобы сэкономить деньги -

1)
a. сначала загрузите данные в таблицу Big Query, используя клиентские библиотеки Python Big Query в промежуточных таблицах. б. Выполните приведение SQL-запросов к большим таблицам запросов, чтобы обновить схему. И загрузить в таблицы хранилища данных.

2) a. Выполните приведение перед загрузкой данных в таблицы BQ. Используйте библиотеки python для сопоставления типов данных или используйте Pandas фреймы данных для преобразования данных и используйте клиентские библиотеки для загрузки данных преобразования в промежуточный слой таблиц BQ. б. Слияние промежуточных таблиц с таблицами DW без каких-либо манипуляций.

С уважением,

1 Ответ

0 голосов
/ 28 мая 2020

Согласно документации , загрузка данных в BigQuery бесплатна per se (если только вы не потоковые данные ).

BigQuery дает вам возможность использовать автоматическое определение схемы , но это зависит от вашего варианта использования, считаете ли вы, что это лучший вариант или нет. Использование автообнаружения может иногда давать сбой, поскольку это лучший инструмент (сбой может означать неправильный вывод (задание выполнено) или невозможность сделать это (задание не выполнено)).

Я бы стал рекомендуется (если возможно) установить схему локально (вручную или программно), а затем загрузить данные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...