Понимание параллельной обработки Hadoop - PullRequest
0 голосов
/ 13 мая 2018

Я очень новичок в Hadoop и недавно настроил Hadoop внутри Virtual Box с Ubuntu, здесь Name Node и Resource Manager настроены как независимые машины, а также 3 отдельных узла данных и один клиентский узел.

После прочтения некоторыхбольше статей, я понял, что задания mapreduce выполняются параллельно на нескольких узлах,

. Насколько я понимаю, я написал программу Mapreduce и обращаюсь к hostName системы как к ключу в функции map, это для меня.хочу понять параллелизм

Я загрузил данные в Hdfs, 200 МБ данных с размером блока 64 МБ, подтвердил, что 3 датодода имеют блоки

После экспорта jar и запуска из клиента с использованием jar пряжиКак и Jadoop Jar, я ожидаю, что это будет получить имя три datanodes в сторону редуктора, но он показывает Имя клиентской системы

Пожалуйста, вы можете объяснить, как работает это выполнение (Hadoop JAR), он запускаетсямой jar mapreduce во всех трех узлах, если тогда почему он показывает клиентский хостимя вместо трех датодан

...