Как настроить конвейер Cloud Data Fusion для работы с существующими кластерами Hadoop - PullRequest
1 голос
/ 03 июля 2019

Cloud Data Fusion создает новый кластер Dataproc для каждого запуска конвейера. У меня уже есть настройка кластера Dataproc, которая работает 24x7, и я хотел бы использовать этот кластер для запуска конвейеров

1 Ответ

3 голосов
/ 03 июля 2019

Этого можно добиться, настроив новый профиль вычислений с помощью поставщика удаленных Hadoop в разделе Системный администратор -> Конфигурация -> Профиль системных вычислений -> Создать новый профиль вычислений.

Вот подробные шаги.

  1. Настройка SSH в кластере Dataproc

a.Перейдите к консоли Dataproc в Google Cloud Platform.Перейдите в раздел «Сведения о кластере», щелкнув имя кластера Dataproc.

b.В разделе «Экземпляры виртуальной машины» нажмите кнопку «SSH», чтобы подключиться к виртуальной машине Dataproc.Dataproc VM SSH

c.Следуйте приведенным ниже инструкциям, чтобы создать новый ключ SSH, отформатировать файл открытого ключа, чтобы установить срок его действия, и добавить вновь созданный открытый ключ SSH на уровне проекта или экземпляра.

d.Если SSH настроен успешно, вы сможете увидеть только что добавленный ключ SSH в разделе «Метаданные» консоли Compute Engine, а также файл author_keys на виртуальной машине Dataproc.Dataproc SSH keys

Создайте настраиваемый системный профиль для своего экземпляра Data Fusion a.Перейдите к консоли экземпляра Data Fusion, нажав «Просмотр экземпляра enter image description here b».Нажмите «Системный администратор» в правом верхнем углу.enter image description here c.На вкладке «Конфигурация» разверните «Профили системных вычислений».Нажмите «Создать новый профиль» и выберите «Удаленный поставщик Hadoop» на следующей странице.Provisioner enter image description here d.Заполните общую информацию для профиля.е.Информацию об IP-адресе хоста SSH можно найти на странице «Сведения об экземпляре виртуальной машины» в Compute Engine.enter image description here ф.Скопируйте закрытый ключ SSH, созданный на шаге 1, и вставьте его в поле «Закрытый ключ SSH».г.Нажмите «Создать», чтобы создать профиль.Profile

Сконфигурируйте конвейер Data Fusion для использования настроенного профиля

a.Нажмите на конвейер, чтобы запустить удаленный hadoop

b.Нажмите Configure -> Compute config и выберите конфигурацию удаленного инициатора hadoop Pipeline Remote Hadoop Compute Profile

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...