Question

Существуют ли какие-либо инструменты, пакеты или методологии для оценки / моделирования производительности масштабируемости Hadoop с использованием только одной машины с псевдораспределенной архитектурой? Такая система должна была бы делать точные оценки на основе заданий, которые не мешают друг другу при моделировании (например, с заблокированным вводом / выводом).

На мой взгляд, как бы это работало, я бы последовательно запускал все свои задания по карте / сокращал и использовал некоторую метрику, чтобы оценить, насколько хорошо система масштабируется (например, взять самое продолжительное задание по карте и оценить, что время выполнения будет узким местом этого).

Кроме того, у меня есть несколько заданий сопоставления / сокращения, которые объединяются в цепочки для формирования выходных данных.

David Gruzman · Answer 1 · 14 февраля 2012

Я думаю, это во многом зависит от характера вашей работы. Давайте попробуем привести несколько примеров:
1. Ваша работа требует интенсивного форматирования ввода и обработки картографических данных, при этом минимальное количество данных передается редуктору. В этом случае я бы оценил, что псевдораспределенный кластер будет реально отражать реальную производительность кластера (на слот), и вы можете предположить, что кластер из 5 узлов будет иметь производительность примерно в 5 раз. Я бы посоветовал поместить достаточно данных, чтобы время работы занимало как минимум 5-10 раз больше времени запуска работы. Эта оценка будет лучше, если у вас будет достаточно разбиений, чтобы обеспечить локальность данных во время обработки.
Если вы планируете иметь много относительно небольших файлов - поместите их в свой тест, чтобы имитировать накладные расходы для каждой задачи. 2. Вы активно используете возможности распределенной сортировки Hadoop (тасование). Его производительность в одном узле и реальном кластере может быть совершенно разной, и этот фактор трудно оценить.
Я могу подвести итог, что пропускную способность маппера и, в некоторой степени, редуктора в терминах МБ / с на слот вы можете оценить выше. Реальный кластер, вероятно, будет иметь не лучшую производительность на слот.

Оцените производительность масштабируемости Hadoop на псевдораспределенных узлах?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Оцените производительность масштабируемости Hadoop на псевдораспределенных узлах?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы