Вариант использования Big Query или Big table для запроса агрегированных значений? - PullRequest
0 голосов
/ 25 января 2019

У меня есть сценарий для разработки хранилища для 30 ТБ текстовых файлов в рамках развертывания конвейера данных в облаке Google. Мои входные данные представлены в формате CSV, и я хочу минимизировать стоимость запроса совокупных значений для нескольких пользователей, которые будут запрашивать данные в облачном хранилище с несколькими механизмами. Что было бы лучшим вариантом ниже для этого варианта использования?

Использование Cloud Storage для хранения и связывания постоянных таблиц в Big Query для запросов или Использование Cloud Big table для хранения и установка HBaseShell на вычислительном движке для запроса данных больших таблиц.

Основываясь на моем анализе ниже для этого конкретного варианта использования, я вижу ниже, где можно получить доступ к облачному хранилищу через BigQuery. Кроме того, Bigtable поддерживает импорт и запросы CSV. Ограничения BigQuery также указывают максимальный размер на задание загрузки 15 ТБ для всех входных файлов для CSV, JSON и Avro на основе документации, что означает, что я могу загружать задания с множественной загрузкой, если загрузка превышает 15 ТБ, я полагаю.

https://cloud.google.com/bigquery/external-data-cloud-storage#temporary-tables  
https://cloud.google.com/community/tutorials/cbt-import-csv  
https://cloud.google.com/bigquery/quotas  

Значит ли это, что я могу использовать BigQuery для вышеуказанного варианта использования?

1 Ответ

0 голосов
/ 25 января 2019

Короткий ответ - да.

Я писал об этом в:

И при загрузке кластера ваши таблицы, дляЗначительные улучшения в стоимости наиболее распространенных запросов:

В итоге:

  • BigQuery может читать CSV и другие файлыпрямо из GCS.
  • Вы можете определить представление, которое анализирует эти CSV любым удобным для вас способом, в SQL.
  • Вы можете запустить оператор CREATE TABLE, чтобы материализовать CSV в BigQuery.собственные таблицы для повышения производительности и затрат.
  • Вместо CREATE TABLE вы можете выполнять импорт через API, они бесплатны (вместо стоимости запроса для CREATE TABLE.

15BigQuery легко справляется с туберкулезом.

...