Question

У меня есть сценарий для разработки хранилища для 30 ТБ текстовых файлов в рамках развертывания конвейера данных в облаке Google. Мои входные данные представлены в формате CSV, и я хочу минимизировать стоимость запроса совокупных значений для нескольких пользователей, которые будут запрашивать данные в облачном хранилище с несколькими механизмами. Что было бы лучшим вариантом ниже для этого варианта использования?

Использование Cloud Storage для хранения и связывания постоянных таблиц в Big Query для запросов или Использование Cloud Big table для хранения и установка HBaseShell на вычислительном движке для запроса данных больших таблиц.

Основываясь на моем анализе ниже для этого конкретного варианта использования, я вижу ниже, где можно получить доступ к облачному хранилищу через BigQuery. Кроме того, Bigtable поддерживает импорт и запросы CSV. Ограничения BigQuery также указывают максимальный размер на задание загрузки 15 ТБ для всех входных файлов для CSV, JSON и Avro на основе документации, что означает, что я могу загружать задания с множественной загрузкой, если загрузка превышает 15 ТБ, я полагаю.

https://cloud.google.com/bigquery/external-data-cloud-storage#temporary-tables  
https://cloud.google.com/community/tutorials/cbt-import-csv  
https://cloud.google.com/bigquery/quotas

Значит ли это, что я могу использовать BigQuery для вышеуказанного варианта использования?

Felipe Hoffa · Answer 1 · 25 января 2019

Короткий ответ - да.

Я писал об этом в:

https://medium.com/google-cloud/bigquery-lazy-data-loading-ddl-dml-partitions-and-half-a-trillion-wikipedia-pageviews-cd3eacd657b6

И при загрузке кластера ваши таблицы, дляЗначительные улучшения в стоимости наиболее распространенных запросов:

https://medium.com/google-cloud/bigquery-optimized-cluster-your-tables-65e2f684594b

В итоге:

BigQuery может читать CSV и другие файлыпрямо из GCS.
Вы можете определить представление, которое анализирует эти CSV любым удобным для вас способом, в SQL.
Вы можете запустить оператор CREATE TABLE, чтобы материализовать CSV в BigQuery.собственные таблицы для повышения производительности и затрат.
Вместо CREATE TABLE вы можете выполнять импорт через API, они бесплатны (вместо стоимости запроса для CREATE TABLE.

15BigQuery легко справляется с туберкулезом.

Вариант использования Big Query или Big table для запроса агрегированных значений?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Вариант использования Big Query или Big table для запроса агрегированных значений?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы