Как отправить задание hadoop MR удаленно в кластер Amazon EMR - PullRequest
0 голосов
/ 06 декабря 2018

Текущая ситуация: у меня кластер EMR.На главном узле - у меня есть программа на Python, которая выполняет вызов подпроцесса и выполняет сценарий, который содержит следующую строку.Подпроцесс запускает задание MR и записывает вывод в HDFS, которую я использую позже.

/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt

Что я хочу сделать?Теперь я хочу отделить эту часть.Я хочу запускать программу python локально на своем ноутбуке или в отдельном экземпляре EC2, но все же отправлять работу MR в кластер EMR.Допустим, у меня есть файл test.jar на главном узле EMR.

Как передать это удаленно?Кроме того, я использую Python, и давайте также предположим, что JAR - это черный ящик.Есть ли какой-нибудь пакет, который я могу использовать, чтобы отправить работу?Должен ли я упоминать как IP-узел главного узла, чтобы иметь возможность запустить это?

...