Почему BigQuery имеет собственное хранилище? - PullRequest
0 голосов
/ 17 января 2019

BigQuery (BQ) имеет собственную систему хранения, которая полностью отделена от Google Cloud Store (GCS).

Мой вопрос: почему BQ не обрабатывает напрямую данные, хранящиеся в GCS, такие как Hadoop Hive? В чем выгода и необходимость этого дизайна?

Ответы [ 2 ]

0 голосов
/ 16 июля 2019

BigQuery получает несколько преимуществ благодаря наличию собственного отдельного хранилища.

Например, BigQuery может постоянно оптимизировать хранение своих данных, перемещая и переупорядочивая их на дисках, на которых они хранятся, и добавляя больше дисков и повторяя процесс по мере того, как база данных становится все больше и больше.

BigQuery также использует отдельный вычислительный уровень для запроса уровня хранения, позволяя масштабировать уровень хранения, в то время как для выполнения запросов требуется меньше всего оборудования. Это дает BigQuery возможность использовать больше вычислительной мощности, когда это необходимо, но не иметь незанятого оборудования, когда запросы из конкретной базы данных не выполняются.

Для более подробного объяснения структуры и оптимизации BigQueries вы можете проверить эту статью, которую я написал для школы данных.

0 голосов
/ 17 января 2019

Это связано с тем, что BigQuery использует системы баз данных, ориентированные на столбцы, и имеет фоновые процессы, которые постоянно проверяют, хранятся ли данные оптимальным образом. Таким образом, данные управляются BigQuery (поэтому он имеет собственное хранилище) и предоставляет пользователю только самый высокий уровень.

См. статью для более подробной информации:

Когда вы загружаете биты в BigQuery, сервис приобретает полный ответственность за управление этими данными, и только разоблачение логического Примитивы базы данных для вас

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...