Пока GCP Dataflow распределяет рабочих в зональных экземплярах GCE в одном конкретном регионе, управляемых как группы MIG , при любой аварии в зоне расположения потребуется пользователь, чтобы перезапустить задание и указать зону в отдельном регионе.
Учитывая сказанное, мы можем предположить, что Dataflow предлагает зональную модель высокой доступности, а не региональную, поэтому в настоящее время невозможно указать несколько регионов и обеспечить автоматическое переключение потока данных на другой регион в случае сбоя вычислительной зоны.
В упомянутом варианте использования я предполагаю, что для пакетного задания потока данных, которое не потребляет никаких поступающих данных в реальном времени, вы можете просто перезапустите это задание в любое время без потери данных в случае сбоя. Если цель по-прежнему заключается в приеме данных, постоянно обнаруживающем появление файлов fre sh в ведре GCS, то, вероятно, вам потребуется запустить выполнение streaming для этого конкретного конвейера.
Я бы порекомендовал вам посмотреть на Google Cloud Functions , что дает вам возможность составить пользовательскую функцию срабатывание определенное c действие, основанное на возникновении некоторого облачного события. Я предполагаю, что таким образом вы сможете получить вредоносное событие для конвейера пакетного потока данных в основной региональной зоне и на основе этого выполнить то же задание в отдельной области вычислений.
Было бы даже больше Сообществу выгодно подать запрос функции поставщику через трекер проблем с учетом реализации многорегиональной высокой доступности Dataflow.