Запись данных pubsub в gcs через поток данных - PullRequest
0 голосов
/ 07 сентября 2018

Я хотел бы использовать данные из pubsub с помощью задания потоковой передачи данных и сохранять их в GCS в почасовых каталогах.

Какой подход лучше?

Я попытался использовать WindowedFilenamePolicy, но он добавляет дополнительную группу и замедляет операцию записи во время записи. Поток данных правильно буферизует данные, но запись данных во временную корзину занимает слишком много времени.

Есть ли лучшие практики для такого довольно распространенного случая?

С уважением, Pari

1 Ответ

0 голосов
/ 08 сентября 2018

Используя предоставленный Google шаблон потока данных для потокового конвейера из Cloud Pub / Sub в файлы Google Cloud Storage , вы можете легко сделать это, установив outputDirectory в gs://<BUCKET>/YYYY/MM/DD/HH/, и он автоматически заменит YYYY , ММ, ДД и ЧЧ для значений окна интервала.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...