Bigquery и Google Cloud Storage - PullRequest
       12

Bigquery и Google Cloud Storage

0 голосов
/ 29 октября 2018

Я пытаюсь использовать bigquery для запроса данных из облачного хранилища Google.

enter image description here

Это данные для моей БД в реальном времени в firebase. Он состоит из файла JSON. Как я могу запросить и просмотреть данные внутри каждого файла?

Я на самом деле читаю это, но я не понимаю, как подключиться.

https://cloud.google.com/bigquery/external-data-cloud-storage

Обновление

enter image description here

enter image description here

Если я укажу на определенный файл (например, firebase.json), все в порядке. Но мне нужно обновить мои данные.

enter image description here

1 Ответ

0 голосов
/ 29 октября 2018

Использование интерфейса пользователя к 2018-10-29

Если вы хотите сделать это из пользовательского интерфейса. Перейти к BigQuery, щелкните левой кнопкой мыши на

project -> dataset -> at the right click on cleater Table

Заполните остальную информацию

  • Создать таблицу из: Google Cloud Storage
  • Выберите из корзины GCS: путь к вашей базе данных в GCS
  • Формат файла: JSON
  • В разделе схемы нажмите кнопку автоопределения схемы

Это должно сделать работу с использованием нового пользовательского интерфейса к 2018-10-29

Использование CLI

Вы также можете сделать это из консоли Google, используя CLIG BigQuery, например

bq mk --external_table_definition=gs://yourbucket/path/yourdb --destination_format NEWLINE_DELIMITED_JSON --autodetect yourdataset.yourtablename

Последним аргументом является имя вашего набора данных, ставящее точку в имени таблицы.

Вам не нужно указывать файл, вы можете указать на папку. О сжатии, из документации BigQuery

Если вы используете сжатие gzip, BigQuery не может читать данные параллельно. Загрузка сжатых данных JSON в BigQuery выполняется медленнее, чем загрузка несжатые данные.

Так что это поддерживается, но не рекомендуется с точки зрения производительности из-за ограничений формата gz. В любом случае, если должно быть несколько небольших файлов, это не должно иметь значения, я думаю, что это больше связано с большими файлами gziped.

EDIT: Если вам нужно указать несколько файлов, вы можете использовать подстановочный знак, например --external_table_definition=gs://yourbucket/path/yourdb/*

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...