Этого можно добиться, настроив новый профиль вычислений с помощью поставщика удаленных Hadoop в разделе Системный администратор -> Конфигурация -> Профиль системных вычислений -> Создать новый профиль вычислений.
Вот подробные шаги.
- Настройка SSH в кластере Dataproc
a.Перейдите к консоли Dataproc в Google Cloud Platform.Перейдите в раздел «Сведения о кластере», щелкнув имя кластера Dataproc.
b.В разделе «Экземпляры виртуальной машины» нажмите кнопку «SSH», чтобы подключиться к виртуальной машине Dataproc.
c.Следуйте приведенным ниже инструкциям, чтобы создать новый ключ SSH, отформатировать файл открытого ключа, чтобы установить срок его действия, и добавить вновь созданный открытый ключ SSH на уровне проекта или экземпляра.
d.Если SSH настроен успешно, вы сможете увидеть только что добавленный ключ SSH в разделе «Метаданные» консоли Compute Engine, а также файл author_keys на виртуальной машине Dataproc.
Создайте настраиваемый системный профиль для своего экземпляра Data Fusion a.Перейдите к консоли экземпляра Data Fusion, нажав «Просмотр экземпляра b».Нажмите «Системный администратор» в правом верхнем углу. c.На вкладке «Конфигурация» разверните «Профили системных вычислений».Нажмите «Создать новый профиль» и выберите «Удаленный поставщик Hadoop» на следующей странице. d.Заполните общую информацию для профиля.е.Информацию об IP-адресе хоста SSH можно найти на странице «Сведения об экземпляре виртуальной машины» в Compute Engine. ф.Скопируйте закрытый ключ SSH, созданный на шаге 1, и вставьте его в поле «Закрытый ключ SSH».г.Нажмите «Создать», чтобы создать профиль.
Сконфигурируйте конвейер Data Fusion для использования настроенного профиля
a.Нажмите на конвейер, чтобы запустить удаленный hadoop
b.Нажмите Configure -> Compute config и выберите конфигурацию удаленного инициатора hadoop