Почему мой Hadoop MapReduce не работает быстрее, даже когда я добавляю узлы в кластер? - PullRequest
0 голосов
/ 17 июня 2019

Итак, я запускаю 50 МБ данных с WordCount в моем кластере Hadoop. я запускаю тест на 5 разных размерах кластера, кластер с одним узлом до кластера с 5 узлами. Дело в том, что время исполнения не сильно меняется. у него есть только 1 - 2 минуты, отличающиеся на каждом запуске. разве добавление узла в кластер приводит к увеличению ресурсов, которые можно использовать, и ускоряет выполнение задания?

Я ожидаю, что время выполнения будет намного быстрее с каждым добавлением узла, но результат показывает мне обратное.

узел, который я использую, имеет 2 ГБ оперативной памяти и 2 ядра. я ничего не меняю в отношении контейнера на yarn-site.xml и на карте / уменьшении alloc.mb на mapred-site.xml.

1 Ответ

2 голосов
/ 17 июня 2019

Вам нужно проверить это с большим количеством данных.YARN выделит контейнер карты для каждого блока данных HDFS.Размер блока HDFS по умолчанию обычно составляет 64 МБ, поэтому, возможно, ваш тестовый файл использует только один блок HDFS.Контейнер - это минимальный фрагмент вычислений, который YARN назначит узлу.В худшем случае для тестирования вам понадобится только один контейнер для фазы отображения, а другой - для фазы сокращения.2 контейнера обычно помещаются в один узел, поэтому добавление большего количества узлов не даст вам большей скорости.

...