Можно ли установить регион, который использует Облачный поток данных Google на уровне проекта или организации? - PullRequest
0 голосов
/ 23 ноября 2018

Мои работодатели недавно начали использовать Google Cloud Platform для хранения / обработки / анализа данных.Мы находимся в ЕС, поэтому мы хотим ограничить работу облачных потоков данных в этом регионе.Я полагаю, что это можно сделать на основе шаблонов для каждого задания / задания с помощью --region и --zone, но мне было интересно (учитывая, что все наши работы будут использовать один и тот же регион), если есть способ установить это более постоянным образомна более широком уровне (проект или организация)?Спасибо, Стивен

Обновление:

После этого кажется, что ответ Адлы правильный, хотя есть и другой обходной путь (на который я отвечу).В дополнение к этому, теперь существует открытая проблема с Google this, которая может быть найдена / отслежена в https://issuetracker.google.com/issues/113150550

Я могу предоставить немного больше информации о вещах, которые не работают, в случае, если это помогает другим:

Служба поддержки Google предложила изменить местоположение папок, связанных с dataprep, в соответствии с Как изменить регион / зону, в которой выполняется задание потока данных Google dataprep - к сожалению, у меня это не сработало,хотя некоторые из тех, кто отвечает на этот вопрос, полагают, что он имеет для них.

Кто-то на моем рабочем месте предложил ограничить квоты Dataflow для регионов, не входящих в ЕС: https://console.cloud.google.com/iam-admin/quotas, чтобы направить его на использование соответствующего региона,но после тестирования Dataprep продолжал отдавать предпочтение использованию US.

Ответы [ 2 ]

0 голосов
/ 12 декабря 2018

Решение, предоставленное мне службой поддержки Google, которое в основном подразумевает использование Dataprep в качестве компоновщика заданий Dataflow, а не сам по себе инструмент

  1. Создайте нужный поток в Dataprep, но если есть данные, которые выневозможно отправить из региона, создать его версию (образец или полную), где конфиденциальные данные скрыты или скрыты, и использовать их.В моем случае достаточно было задать для полей, содержащих идентификатор пользователя, одно поддельное значение.
  2. Запустить поток
  3. После того, как задание было выполнено один раз, в веб-интерфейсе Dataprep в разделе «Задания», используя три точки справа от желаемой работы, нажмите «Экспортировать результаты».
  4. В появившемся всплывающем окне будет указан путь к корзине GCS, содержащей шаблон.Скопируйте полный путь.
  5. Найдите файл метаданных по указанному выше пути в GCS
  6. Измените входные данные, перечисленные в файлах, чтобы использовать ваши «реальные» данные вместо обфусцированной версии
  7. В потоке данныхНа странице консоли, в меню для создания задания с использованием пользовательского шаблона, путь, скопированный из 2, указывается как «Путь шаблона GCS».
  8. В этом меню вы можете выбрать зону, которую хотите запустить.работа в.

Это не просто, но это можно сделать.Я использую такой процесс, настраивая вызов API REST для запуска задания в отсутствие потока данных, имеющего собственный планировщик.

0 голосов
/ 24 ноября 2018

Облачный поток данных использует us-central1 в качестве региона по умолчанию для каждого задания, и если требуемая региональная конечная точка отличается от региона по умолчанию, этот регион необходимо указывать в каждом задании команды Cloud Dataflow, запущенном для него, чтобыбеги туда.Зоне будет автоматически назначена рабочая группа в лучшую зону в регионе, но вы также можете указать ее с помощью --zone.

На данный момент невозможно принудительно назначить регион или зону, используемые Cloud Dataflow.на основе настроек проекта или организации.

Я предлагаю вам запросить новую функцию облачной платформы Google .Обязательно объясните свой вариант использования и то, как эта функция будет полезна для вас.

В качестве обходного пути, чтобы ограничить создание заданий в потоке данных для определенного региона и зоны, вы можете написать сценарий или приложение для создания заданий только с определенным регионом и зоной, которые вам нужны.Если вы также хотите ограничить создание заданий, которые будут выполняться только с помощью сценария, вы можете удалить задания пользователей разрешения на создание и предоставить это разрешение только учетной записи службы, которая будет использоваться этим сценарием

...