Привет, я новичок в hadoop и все еще учусь. Теперь я пытаюсь запустить файл JAR в кластере OpenStap, в котором я создал 1 главный узел с 4 рабочими (подчиненными) узлами. Я поместил свой исполняемый файл JAR на главный узел, чтобы я мог легко запустить этот файл JAR как:
hadoop jar myfile.jar argument1 argument2 output
, где аргумент1 и аргумент2 - это входные данные файла jar, а output указывает, где будут храниться выходные данные в формате hdf.
Здесь у меня два вопроса:
Запускаю ли я этот jar-файл на всех подчиненных узлах? Из журналов обзора hadoop я вижу, что на этих узлах выполняется другое задание MapReduce. Означает ли это, что я запускаю свой файл jar на этих четырех рабочих узлах, хотя я не храню файл jar на этих узлах?
Какую команду мне следует использовать, если я хочу запустить этот jar-файл на разных номерах узлов ?
Я заметил, что в Spark это легко сделать так:
$SPARK_HOME/bin/spark-submit --master yarn --deploy-mode cluster --num-executors n --executor-cores 1 myfile.jar
где n используется для указания номера работоспособного узла.
Может ли hadoop сделать что-то знакомое?