Сокращение числа работающих карт по сравнению с географически расположенными виртуальными машинами. Насколько это плохо для кластера hadoop? - PullRequest
0 голосов
/ 29 ноября 2010

Как и в случае с темой, важно ли получить специальное оборудование для запуска кластера hadoop, а не виртуальные машины? Если да, то какова допустимая задержка в сети? Вы должны иметь Gigabit Ethernet? Я хотел бы использовать Hadoop в ускорении процесса ETL. Пытаясь это сделать, я настроил несколько виртуальных машин (512-1 ГБ ОЗУ, 1 ядро ​​на ВМ двухъядерного процессора с частотой 2,2 МГц), которые находятся на расстоянии около 500 миль, с задержкой в ​​сети 10-25 мс в сети Ethernet 100 Мбит / с. Я не могу сопоставить производительность одной машины для моего процесса ETL с 3-4 виртуальными машинами в качестве узлов. Итак, я подумал, что задам этот вопрос здесь для большего понимания.

Ответы [ 2 ]

1 голос
/ 03 декабря 2010

Это сильно зависит от ваших задач, но, как правило, все это важно - включая задержки в сети, пропускную способность, загрузку / доступность процессора,

Я могу представить несколько сценариев, в которых пропускная способность сети не будет иметь большого значения, например, если вы уже загрузили массив данных в HDFS, то есть он четко распределен по всем узлам, и вы собираетесь это сделать сложное вычисление для этого массива в мапперах без каких-либо редукторов или с очень малой долей данных, поступающих в редукторы. Например, если вы собираетесь подсчитать количество строк в текстовых файлах, средства отображения будут считывать файлы размером в несколько гигабайт и выдавать только одно простое число в уменьшители - количество строк. Редукторы суммируют эти числа и вставляют один ответ в вывод. Это практически ничего не передается по сети => не влияет на производительность.

Однако в реальной жизни такие задачи встречаются довольно редко. Обычно между мапперами и редукторами происходит некоторое группирование, и, таким образом, большая часть расчета для каждой группы выполняется редукторами, то есть редукторам приходится передавать все данные из мапперов, обычно с интенсивным использованием сети.

Если вы расскажете больше о своих задачах, я могу дать более подробные оценки того, какое оборудование вы хотите использовать, и каковы слабые стороны текущего решения.

0 голосов
/ 29 ноября 2010

Выделенное оборудование всегда важно.
У ваших виртуальных машин определенно недостаточно ОЗУ, задержка сети будет иметь значение, но 100 Мбит / с, вероятно, достаточно для 3-4 узлов.

...