Как программно запустить утилиты Hadoop на кластере Dataproc? - PullRequest
0 голосов
/ 25 февраля 2019

У меня есть:

  • Приложение App Engine (Java / Python)
  • Кластер Dataproc

Я хочу запустить одну из утилит Hadoop наглавный узел (hadoop distcp) программно.Каков наилучший способ сделать это?Пока что у меня есть следующая подсказка: от ssh до мастер-узла и оттуда запускаю util.Есть ли другой вариант для достижения той же цели?

1 Ответ

0 голосов
/ 25 февраля 2019

Для запуска DistCp вы можете отправить обычное задание Hadoop MR через API Dataproc или gcloud и указать org.apache.hadoop.tools.DistCp в качестве основного класса:

gcloud dataproc jobs submit hadoop --cluster=<CLUSTER> \
    --class=org.apache.hadoop.tools.DistCp -- <SRC> <DST>

Из Python вы можете использовать либо REST API напрямую или Клиентская библиотека Python для отправки задания DistCp.

...