Каковы плюсы и минусы загрузки данных непосредственно в Google BigQuery по сравнению с прохождением сначала через облачное хранилище? - PullRequest
0 голосов
/ 27 июня 2018

Кроме того, что-то не так с выполнением преобразований / объединений непосредственно в BigQuery? Я хотел бы свести к минимуму количество компонентов и этапов для настраиваемого хранилища данных (простые данные о транзакциях и запасах для сети розничных магазинов).

Ответы [ 2 ]

0 голосов
/ 27 июня 2018

Загрузка данных через облачное хранилище - самый быстрый (и самый дешевый) способ. Загрузка напрямую может быть осуществлена ​​через приложение (используя потоковую вставку, которая добавляет дополнительную стоимость)

Для выполнения преобразования - если то, что вы планируете / нужно сделать, можно сделать в BigQuery - вам следует это сделать в BigQuery :) - это лучший и самый быстрый способ создания ETL. Но вы должны принять во внимание стоимость выполнения запроса (если вы не платите Google за слоты - это может быть 5 $ за сканирование 1 ТБ)

Еще одним хорошим вариантом для сложных ETL является использование потока данных - но он может очень быстро стать дорогим - в обмен на большую гибкость.

0 голосов
/ 27 июня 2018

Что ж, если вы проходите через GCS, это означает, что вы не передаете данные в потоковом режиме, и загрузка из файла в BQ бесплатна, а размер файла может достигать 5 ТБ. Что иногда и преимущество, большие возможности файла и быть свободным. Кроме того, streamin работает в реальном времени, а прохождение через GCS означает, что это не в реальном времени.

Если вы хотите напрямую передавать данные в таблицы BQ, для которых предусмотрена стоимость. В настоящее время цена за потоковую передачу составляет 0,01 доллара США за 200 МБ (июнь 2018 года), поэтому около 1 доллара США за 1 ТБ.

С другой стороны, преобразование может быть выполнено с помощью SQL, если вы можете выразить задачу. В противном случае у вас есть много вариантов, люди большую часть времени используют поток данных для преобразования вещей. См. Связанный учебник для расширенного примера.

Смотрите также в
Cloud Dataprep - подготовка данных и очистка данных и
Google Data Studio: простое создание пользовательских отчетов и панелей управления

Также расширенный пример:

Выполнение ETL из реляционной базы данных в BigQuery

...