У меня есть сценарий для разработки хранилища для 30 ТБ текстовых файлов в рамках развертывания конвейера данных в облаке Google. Мои входные данные представлены в формате CSV, и я хочу минимизировать стоимость запроса совокупных значений для нескольких пользователей, которые будут запрашивать данные в облачном хранилище с несколькими механизмами. Что было бы лучшим вариантом ниже для этого варианта использования?
Использование Cloud Storage для хранения и связывания постоянных таблиц в Big Query для запросов или Использование Cloud Big table для хранения и установка HBaseShell на вычислительном движке для запроса данных больших таблиц.
Основываясь на моем анализе ниже для этого конкретного варианта использования, я вижу ниже, где можно получить доступ к облачному хранилищу через BigQuery. Кроме того, Bigtable поддерживает импорт и запросы CSV. Ограничения BigQuery также указывают максимальный размер на задание загрузки 15 ТБ для всех входных файлов для CSV, JSON и Avro на основе документации, что означает, что я могу загружать задания с множественной загрузкой, если загрузка превышает 15 ТБ, я полагаю.
https://cloud.google.com/bigquery/external-data-cloud-storage#temporary-tables
https://cloud.google.com/community/tutorials/cbt-import-csv
https://cloud.google.com/bigquery/quotas
Значит ли это, что я могу использовать BigQuery для вышеуказанного варианта использования?