Как я могу запустить Had oop Streaming в Had oop Cluster? - PullRequest
0 голосов
/ 25 апреля 2020

В настоящее время у меня есть кластер Had oop с 3 узлами (ubuntu)

Я хочу запустить python / R сценарии с потоковой передачей oop, но я не уверен, что просто выполняю HS фактически заставляет работать все узлы или нет

Если это возможно, пожалуйста, дайте мне направление для запуска потоковой передачи в кластере

Спасибо

1 Ответ

0 голосов
/ 28 апреля 2020

Had oop streaming - это встроенная утилита jar /, которая позволяет создавать и запускать задания Map / Reduce с любым исполняемым файлом или сценарием в качестве сопоставителя и / или редуктора.

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper /bin/cat \
    -reducer /bin/wc

В приведенной выше команде и преобразователь, и преобразователь являются исполняемыми файлами, которые считывают ввод из stdin (строка за строкой) и выводят вывод в stdout. Утилита создаст задание Map / Reduce, отправит задание в соответствующий кластер и будет отслеживать ход выполнения задания до его завершения.

-input: directory / file-name Местоположение ввода для картографа.

-output: имя-каталога Расположение вывода для редуктора.

-mapper: исполняемый файл или скрипт или JavaClassName Обязательный исполняемый файл Mapper.

-reducer: исполняемый файл или скрипт или JavaClassName Обязательный исполняемый файл редуктора .

-file file-name: делает исполняемый файл преобразователя, редуктора или объединителя доступным локально на вычислительных узлах.

Пример 1: определяемый пользователем python исполняемый файл в качестве преобразователя. Параметр «-file myPythonScript.py» приводит к тому, что исполняемый файл python, отправляемый на компьютеры кластера как часть отправки задания.

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper myPythonScript.py \
    -reducer /bin/wc \
    -file myPythonScript.py

Пример 2. Отправка класса Java в качестве аргумента для картограф и / или редуктор

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper org.apache.hadoop.mapred.lib.IdentityMapper \
    -reducer /bin/wc

Источник: Имел oop Потоковая банка

...