Оцените производительность масштабируемости Hadoop на псевдораспределенных узлах? - PullRequest
1 голос
/ 13 февраля 2012

Существуют ли какие-либо инструменты, пакеты или методологии для оценки / моделирования производительности масштабируемости Hadoop с использованием только одной машины с псевдораспределенной архитектурой? Такая система должна была бы делать точные оценки на основе заданий, которые не мешают друг другу при моделировании (например, с заблокированным вводом / выводом).

На мой взгляд, как бы это работало, я бы последовательно запускал все свои задания по карте / сокращал и использовал некоторую метрику, чтобы оценить, насколько хорошо система масштабируется (например, взять самое продолжительное задание по карте и оценить, что время выполнения будет узким местом этого).

Кроме того, у меня есть несколько заданий сопоставления / сокращения, которые объединяются в цепочки для формирования выходных данных.

1 Ответ

0 голосов
/ 14 февраля 2012

Я думаю, это во многом зависит от характера вашей работы. Давайте попробуем привести несколько примеров:
1. Ваша работа требует интенсивного форматирования ввода и обработки картографических данных, при этом минимальное количество данных передается редуктору. В этом случае я бы оценил, что псевдораспределенный кластер будет реально отражать реальную производительность кластера (на слот), и вы можете предположить, что кластер из 5 узлов будет иметь производительность примерно в 5 раз. Я бы посоветовал поместить достаточно данных, чтобы время работы занимало как минимум 5-10 раз больше времени запуска работы. Эта оценка будет лучше, если у вас будет достаточно разбиений, чтобы обеспечить локальность данных во время обработки.
Если вы планируете иметь много относительно небольших файлов - поместите их в свой тест, чтобы имитировать накладные расходы для каждой задачи. 2. Вы активно используете возможности распределенной сортировки Hadoop (тасование). Его производительность в одном узле и реальном кластере может быть совершенно разной, и этот фактор трудно оценить.
Я могу подвести итог, что пропускную способность маппера и, в некоторой степени, редуктора в терминах МБ / с на слот вы можете оценить выше. Реальный кластер, вероятно, будет иметь не лучшую производительность на слот.

...