Я пытаюсь написать приложение для приема пищи, используя службы GCP.Каждый день может быть около 1 ТБ данных, которые могут поступать в потоковом режиме (т. Е. 100 ГБ каждый час или даже один раз в определенное время)
Я пытаюсь разработать приложение для приема внутрь, сначала яЭто хорошая идея написать простой скрипт на Python в задании cron для последовательного чтения файлов (или даже в двух-трех потоках), а затем опубликовать их как сообщение в pub / sub.Кроме того, мне нужно, чтобы задание Dataflow всегда выполняло чтение данных из pub / sub и сохраняло их в BigQuery.
Но я действительно хочу знать, если мне здесь вообще нужен pub / sub, я знаю, что поток данных может быть оченьгибкость, и я хотел знать, могу ли я принять 1 ТБ данных непосредственно из GCS в BigQuery в виде пакетного задания, или это лучше сделать потоковым заданием (по pub / sub), как я уже говорил выше?Каковы плюсы и минусы каждого подхода с точки зрения стоимости?