Рекомендации по стратегии загрузки данных BigQuery - PullRequest
0 голосов
/ 05 мая 2020

У меня есть таблицы с разбиением по датам. В настоящее время мы работаем с обновлениями в этих таблицах:

a) установив для параметра Write Disposition значение Write_Truncate на разделах, так что мы sh удаляем весь раздел данных в течение ТАКИХ дней, о которых идет речь. б) И затем, для дней, когда мы обновили данные, мы снова загружаем данные ВСЕГО дня.

Другими словами, даже если в разделе дат, который имеет 100 000 записей, обновлена ​​1 запись, мы проверяем sh весь раздел и перезагружаем его. Это немного дорого и неэффективно.

Есть ли другой лучший способ сделать это, когда мы можем просто запускать обновления? Как это будет работать с существующими таблицами, секционированными по дате и содержащими ГБ данных? Какое расположение записи использовать в таких случаях?

Есть примеры кода или указатели на это?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...