Должен ли я использовать паб / саб - PullRequest
0 голосов
/ 15 февраля 2019

Я пытаюсь написать приложение для приема пищи, используя службы GCP.Каждый день может быть около 1 ТБ данных, которые могут поступать в потоковом режиме (т. Е. 100 ГБ каждый час или даже один раз в определенное время)

Я пытаюсь разработать приложение для приема внутрь, сначала яЭто хорошая идея написать простой скрипт на Python в задании cron для последовательного чтения файлов (или даже в двух-трех потоках), а затем опубликовать их как сообщение в pub / sub.Кроме того, мне нужно, чтобы задание Dataflow всегда выполняло чтение данных из pub / sub и сохраняло их в BigQuery.

Но я действительно хочу знать, если мне здесь вообще нужен pub / sub, я знаю, что поток данных может быть оченьгибкость, и я хотел знать, могу ли я принять 1 ТБ данных непосредственно из GCS в BigQuery в виде пакетного задания, или это лучше сделать потоковым заданием (по pub / sub), как я уже говорил выше?Каковы плюсы и минусы каждого подхода с точки зрения стоимости?

1 Ответ

0 голосов
/ 15 февраля 2019

Похоже, вам вообще не нужен Pub / Sub.

Уже есть шаблон Dataflow для прямой передачи текстовых файлов из Cloud Storage в BigQuery (в бета-версии простокак шаблон Pub / Sub to BigQuery) и вообще, пакетные задания дешевле, чем потоковые задания (см. Информация о ценах ).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...