Я настроил и тестирую псевдораспределенный кластер Hadoop (с namenode, системой отслеживания заданий и системой отслеживания задач / узлом данных на одной машине). Коробка, на которой я работаю, имеет около 4 гигабайт памяти, 2 процессора, 32-битную и работает под управлением Red Hat Linux.
Я запустил примеры программ grep из учебников с различными размерами и количеством файлов. Я обнаружил, что grep занимает около 45 секунд для файла объемом 1 МБ, 60 секунд для файла объемом 100 МБ и около 2 минут для файла объемом 1 ГБ.
Я также создал свою собственную программу Map Reduce, которая полностью исключает всю логику; функции карты и уменьшения пусты. Запуск этого примера программы занял 25 секунд.
Я попытался переместить датододу на вторую машину, а также добавить ее во второй узел, но я вижу изменения только в течение нескольких секунд. В частности, я заметил, что время настройки и очистки всегда составляет около 3 секунд, независимо от того, какой ввод я даю. Мне кажется, это действительно очень долго только для настройки.
Я знаю, что это время будет сильно различаться в зависимости от моего оборудования, конфигурации, входов и т. Д., Но я просто хотел знать, может ли кто-нибудь сообщить мне, следует ли ожидать этого времени или, если я проведу серьезную настройку и настройку, я может значительно сократить его (например, grep занимает всего <5 секунд). </p>