Question

Cloud Data Fusion создает новый кластер Dataproc для каждого запуска конвейера. У меня уже есть настройка кластера Dataproc, которая работает 24x7, и я хотел бы использовать этот кластер для запуска конвейеров

Sree · Answer 1 · 03 июля 2019

Этого можно добиться, настроив новый профиль вычислений с помощью поставщика удаленных Hadoop в разделе Системный администратор -> Конфигурация -> Профиль системных вычислений -> Создать новый профиль вычислений.

Вот подробные шаги.

Настройка SSH в кластере Dataproc

a.Перейдите к консоли Dataproc в Google Cloud Platform.Перейдите в раздел «Сведения о кластере», щелкнув имя кластера Dataproc.

b.В разделе «Экземпляры виртуальной машины» нажмите кнопку «SSH», чтобы подключиться к виртуальной машине Dataproc.

c.Следуйте приведенным ниже инструкциям, чтобы создать новый ключ SSH, отформатировать файл открытого ключа, чтобы установить срок его действия, и добавить вновь созданный открытый ключ SSH на уровне проекта или экземпляра.

d.Если SSH настроен успешно, вы сможете увидеть только что добавленный ключ SSH в разделе «Метаданные» консоли Compute Engine, а также файл author_keys на виртуальной машине Dataproc.

Создайте настраиваемый системный профиль для своего экземпляра Data Fusion a.Перейдите к консоли экземпляра Data Fusion, нажав «Просмотр экземпляра b».Нажмите «Системный администратор» в правом верхнем углу. c.На вкладке «Конфигурация» разверните «Профили системных вычислений».Нажмите «Создать новый профиль» и выберите «Удаленный поставщик Hadoop» на следующей странице. d.Заполните общую информацию для профиля.е.Информацию об IP-адресе хоста SSH можно найти на странице «Сведения об экземпляре виртуальной машины» в Compute Engine. ф.Скопируйте закрытый ключ SSH, созданный на шаге 1, и вставьте его в поле «Закрытый ключ SSH».г.Нажмите «Создать», чтобы создать профиль.