Параметры потоковой передачи Hadoop содержит различные параметры потоковой передачи Hadoop, которые могут быть полезны в вашем случае:
-inputformat JavaClassName
По умолчанию используется TextInputFormat
Я проверил это, используя только TextInputFormat, но я считаю, что это должно быть похоже на
hadoop jar hadoop-streaming-2.8.0.jar \
-input '/user/foo/dir1' -inputformat TextInputFormat \
-input '/user/foo/dir2' -inputformat SequenceFileInputFormat \
(rest of the command)
Вот что проверено, и это работает:
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming-2.6.0*.jar \
-file mapperB.py -mapper mapperB.py -file reducerB.py -reducer reducerB.py \
-input /tempfiles/big.txt -inputformat TextInputFormat \
-input /tempfiles/t.txt -inputformat TextInputFormat \
-output /tempfiles/output-X
Примечание: file
устарела,