MapReduce в потоковой передаче Hadoop выводит результат, отличный от команды bash - PullRequest
0 голосов
/ 02 июня 2019

Я установил hadoop в качестве докера.(https://hub.docker.com/r/sequenceiq/hadoop-docker)

HDFS ls входные результаты

$ bin/hdfs dfs -ls input
Found 31 items
-rw-r--r--   1 root supergroup       4436 2015-07-22 11:17 input/capacity-scheduler.xml
-rw-r--r--   1 root supergroup       1335 2015-07-22 11:17 input/configuration.xsl
-rw-r--r--   1 root supergroup        318 2015-07-22 11:17 input/container-executor.cfg
-rw-r--r--   1 root supergroup        155 2015-07-22 11:17 input/core-site.xml
-rw-r--r--   1 root supergroup        154 2015-07-22 11:17 input/core-site.xml.template
-rw-r--r--   1 root supergroup       3670 2015-07-22 11:17 input/hadoop-env.cmd
-rw-r--r--   1 root supergroup       4302 2015-07-22 11:17 input/hadoop-env.sh
-rw-r--r--   1 root supergroup       2490 2015-07-22 11:17 input/hadoop-metrics.properties
-rw-r--r--   1 root supergroup       2598 2015-07-22 11:17 input/hadoop-metrics2.properties
-rw-r--r--   1 root supergroup       9683 2015-07-22 11:17 input/hadoop-policy.xml
-rw-r--r--   1 root supergroup        126 2015-07-22 11:17 input/hdfs-site.xml
-rw-r--r--   1 root supergroup       1449 2015-07-22 11:17 input/httpfs-env.sh
-rw-r--r--   1 root supergroup       1657 2015-07-22 11:17 input/httpfs-log4j.properties
-rw-r--r--   1 root supergroup         21 2015-07-22 11:17 input/httpfs-signature.secret
-rw-r--r--   1 root supergroup        620 2015-07-22 11:17 input/httpfs-site.xml
-rw-r--r--   1 root supergroup       3518 2015-07-22 11:17 input/kms-acls.xml
-rw-r--r--   1 root supergroup       1527 2015-07-22 11:17 input/kms-env.sh
-rw-r--r--   1 root supergroup       1631 2015-07-22 11:17 input/kms-log4j.properties
-rw-r--r--   1 root supergroup       5511 2015-07-22 11:17 input/kms-site.xml
-rw-r--r--   1 root supergroup      11237 2015-07-22 11:17 input/log4j.properties
-rw-r--r--   1 root supergroup        951 2015-07-22 11:17 input/mapred-env.cmd
-rw-r--r--   1 root supergroup       1383 2015-07-22 11:17 input/mapred-env.sh
-rw-r--r--   1 root supergroup       4113 2015-07-22 11:17 input/mapred-queues.xml.template
-rw-r--r--   1 root supergroup        138 2015-07-22 11:17 input/mapred-site.xml
-rw-r--r--   1 root supergroup        758 2015-07-22 11:17 input/mapred-site.xml.template
-rw-r--r--   1 root supergroup         10 2015-07-22 11:17 input/slaves
-rw-r--r--   1 root supergroup       2316 2015-07-22 11:17 input/ssl-client.xml.example
-rw-r--r--   1 root supergroup       2268 2015-07-22 11:17 input/ssl-server.xml.example
-rw-r--r--   1 root supergroup       2250 2015-07-22 11:17 input/yarn-env.cmd
-rw-r--r--   1 root supergroup       4567 2015-07-22 11:17 input/yarn-env.sh
-rw-r--r--   1 root supergroup       1525 2015-07-22 11:17 input/yarn-site.xml

команда потоковой передачи hadoop ниже.

$ bin/hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.7.0.jar \
    -input input \
    -output test \
    -mapper /bin/cat \
    -reducer /usr/bin/wc
$ bin/hdfs dfs -cat test/*
   2060    7737   78618

и команда bash здесь.

$ bin/hdfs dfs -cat input/* | cat | sort | wc
    729    2588   25574

Я думаю, что это проблема, не связанная с этой ссылкой: Hadoop MapReduce Потоковый вывод отличается от вывода при запуске MapReduce локально

Почему результат отличается?

...