Инкрементная передача данных из облачного хранилища данных Google в BigQuery - PullRequest
0 голосов
/ 10 февраля 2020

Мы пытаемся копировать данные из Google Cloud DataStore в BigQuery с помощью ежедневного использования экземпляра виртуальной машины Compute Engine, но мне очень дорого копировать весь набор данных в BigQuery, в основном нам требуются только обновленные данные (запись, которая изменилась только) мы не хотим копировать всю таблицу из хранилища данных в bigquery с помощью сценария оболочки. Пожалуйста, помогите нам решить эту проблему ...

1 Ответ

0 голосов
/ 11 февраля 2020

при экспорте данных из хранилища данных в Bigquery вы не можете добавить данные в существующую таблицу . Вы можете создать новую таблицу или перезаписать существующую таблицу. В любом случае вы должны экспортировать все свои сущности или сущности указанного c вида из своего хранилища данных, но вы не можете экспортировать только новые данные.

пример сценария, который может обрабатывать данные экспорта из хранилища данных в Bigquery, можно найти здесь .

Если вы хотите сократить затраты, используйте: - preemtibale instance , что очень дешево по сравнению с обычными экземплярами -> для заданий cron

Другой способ, который я нашел, это this . но я не уверен, что это будет работать, потому что это старый пост, и он использует MapReduce API .

...