Как запустить автоматическое обновление Google BigQuery Dataset каждый раз при загрузке CSV в Google Cloud Storage - PullRequest
0 голосов
/ 19 апреля 2020

Я пытаюсь автоматизировать загрузку всех данных, то есть, когда я загружаю файл в хранилище Google Cloud, он автоматически запускает загрузку данных в набор данных BigQuery. Я знаю, что доступно ежедневное обновление установленного времени, но я хочу что-то, где оно срабатывает только при повторной загрузке CSV-файла.

1 Ответ

2 голосов
/ 20 апреля 2020

У вас есть 2 возможности:

С помощью этих 2 решений ваши данные будут доступны BigQuery. Ваш граф Datastudio может запросить BigQuery, данные здесь. Однако.

  • Задание загрузки более эффективно, вы можете разбивать и кластеризовать данные для оптимизации скорости и стоимости. Однако вы дублируете свои данные (из GCS), и вам нужно кодировать и запускать свою функцию. Во всяком случае, стоимость очень низкая и функционировать очень просто. Для больших данных это мое рекомендуемое решение
  • Объединенная таблица очень полезна, когда количество данных мало и для случайного доступа или для создания прототипов. Вы не можете кластеризовать и разбивать ваши данные, и скорость ниже, чем у данных, загружаемых в BigQuery (поскольку анализ CSV выполняется на лету).

Итак, большие данные - это широкая область: делать вам нужно преобразовать данные перед загрузкой? вы можете преобразовать их после журнала? Как вы можете связать запрос те, что после других? ....

Не стесняйтесь, если у вас есть другие вопросы по этому поводу!

...