Had oop streaming - это встроенная утилита jar /, которая позволяет создавать и запускать задания Map / Reduce с любым исполняемым файлом или сценарием в качестве сопоставителя и / или редуктора.
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc
В приведенной выше команде и преобразователь, и преобразователь являются исполняемыми файлами, которые считывают ввод из stdin (строка за строкой) и выводят вывод в stdout. Утилита создаст задание Map / Reduce, отправит задание в соответствующий кластер и будет отслеживать ход выполнения задания до его завершения.
-input: directory / file-name Местоположение ввода для картографа.
-output: имя-каталога Расположение вывода для редуктора.
-mapper: исполняемый файл или скрипт или JavaClassName Обязательный исполняемый файл Mapper.
-reducer: исполняемый файл или скрипт или JavaClassName Обязательный исполняемый файл редуктора .
-file file-name: делает исполняемый файл преобразователя, редуктора или объединителя доступным локально на вычислительных узлах.
Пример 1: определяемый пользователем python исполняемый файл в качестве преобразователя. Параметр «-file myPythonScript.py» приводит к тому, что исполняемый файл python, отправляемый на компьютеры кластера как часть отправки задания.
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper myPythonScript.py \
-reducer /bin/wc \
-file myPythonScript.py
Пример 2. Отправка класса Java в качестве аргумента для картограф и / или редуктор
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc
Источник: Имел oop Потоковая банка