Я просматривал веб-сайт Hadoop и нашел следующую ссылку для потоковой передачи hadoop.
https://hadoop.apache.org/docs/current1/streaming.html
Но меня больше интересует Hadoop YARN (MRv2) - Потоковая командная строкаoptions.
Если у кого-то есть исчерпывающий список, не могли бы вы опубликовать его здесь?
Если он не найден, может кто-нибудь сказать мне, если какой-либо из параметров командной строки в следующей команденезаконны.
yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar \
-D mapred.jab.name="Streaming wordCount Rating" \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D map.output.key.field.separator=\t \
-D mapreduce.partition.keycomparator.options=-k2,2nr \
-D mapreduce.job.reduces=${NUM_REDUCERS} \
-files mapper2.py,reducer2.py \
-mapper "python mapper2.py" \
-reducer "python reducer2.py" \
-input ${OUT_DIR} \
-output ${OUT_DIR_2} > /dev/null