Есть ли (по-прежнему) преимущество в размещении данных в Google Cloud Storage перед загрузкой в ​​BigQuery? - PullRequest
0 голосов
/ 18 июня 2020

У меня есть набор данных, хранящийся как локальный файл (~ 100 ГБ без сжатия JSON, все еще может быть сжат), который я хотел бы вставить в BigQuery (т.е. сохранить его там). (например, https://www.oreilly.com/library/view/google-bigquery-the/9781492044451/ch04.html) предлагает сначала загрузить эти данные в Google Cloud Storage, а затем загружать их оттуда в BigQuery.

Есть ли в этом преимущество перед простой загрузкой напрямую из локального источника в BigQuery (используя bq load в локальном файле)? В нескольких местах предлагалось, чтобы это могло ускорить загрузку или сделать ее более надежной ( данные загрузки Google Bigquery с ограничением размера локального файла , самый надежный формат для больших заданий загрузки bigquery ) , но я не уверен, так ли это сегодня. Например, согласно документации BigQuery поддерживает возобновляемые загрузки для повышения надежности (https://cloud.google.com/bigquery/docs/loading-data-local#resumable), хотя я не знаю, используются ли они при использовании bq load. Единственное ограничение, которое я смог найти, которое все еще остается в силе, - это то, что размер сжатого файла JSON ограничен 4 ГБ (https://cloud.google.com/bigquery/quotas#load_jobs).

1 Ответ

3 голосов
/ 19 июня 2020

Да, хранение данных в облачном хранилище - большое преимущество при разработке. В моих случаях я часто создаю таблицу BigQuery из данных в облачном хранилище несколько раз, пока не настрою все, например схему, модель, разбиение, устранение ошибок и т. Д. c. Загрузка данных каждый раз займет действительно много времени.

Облачное хранилище в BigQuery

Плюсы

  • загрузка данных происходит невероятно быстро
  • возможно удалить таблицу BQ, когда она не используется, и импортировать ее при необходимости (таблица BQ намного больше, чем обычные, возможно сжатые данные в облачном хранилище)
  • вы сохраняете локальное хранилище
  • менее вероятен сбой во время создания таблицы (из локального хранилища могут возникнуть проблемы с сетью, проблемы с компьютером и т. д. c.)

Минусы

  • вы платите дополнительную плату за хранение (в случае, если вы не планируете часто прикасаться к своим данным, например, один раз в месяц - вы можете снизить цену, чтобы использовать ближайшее хранилище)

Так что я бы go для хранения данных в облачном хранилище во-первых, но, конечно, это зависит от вашего варианта использования.

...