Изменение класса корзины (Региональный / Мультирегиональный) в коннекторе Google Cloud Storage в Spark - PullRequest
1 голос
/ 09 июня 2019

В настоящее время я работаю в кластере Dataproc в регионе Европа. Я использую приложение spark на том же кластере. При записи в корзину с использованием коннектора облачного хранилища Google в Spark, корзины автоматически создаются с помощью мультирегионального класса и с несколькими регионами в свойствах США.

Я пишу файл, используя

dataframe.write("gs://location").mode()...

Это создаст новую область с указанными выше свойствами.

Попытка найти конфигурацию для установки класса хранилища в соединителе, но безуспешно. Как мы можем решить эту проблему.

1 Ответ

2 голосов
/ 11 июня 2019

Из документа: Постановочное ведро Cloud Dataproc

Когда вы создаете кластер, по умолчанию Cloud Dataproc создает промежуточную корзину Cloud Storage в вашем проекте или повторно использует существующую промежуточную корзину, созданную Cloud Dataproc, из предыдущего запроса на создание кластера. Этот блок используется для создания зависимостей заданий кластера, вывода драйвера задания и файлов конфигурации кластера. Вместо того чтобы полагаться на создание промежуточного сегмента по умолчанию, вы можете указать существующее контейнерное хранилище Cloud, которое Cloud Dataproc будет использовать в качестве промежуточного сегмента вашего кластера.

Если вы создаете кластер Dataproc по команде, попробуйте добавить - region = REGION

gcloud dataproc clusters create cluster-name --region region ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...