Существуют ли какие-либо инструменты, пакеты или методологии для оценки / моделирования производительности масштабируемости Hadoop с использованием только одной машины с псевдораспределенной архитектурой? Такая система должна была бы делать точные оценки на основе заданий, которые не мешают друг другу при моделировании (например, с заблокированным вводом / выводом).
На мой взгляд, как бы это работало, я бы последовательно запускал все свои задания по карте / сокращал и использовал некоторую метрику, чтобы оценить, насколько хорошо система масштабируется (например, взять самое продолжительное задание по карте и оценить, что время выполнения будет узким местом этого).
Кроме того, у меня есть несколько заданий сопоставления / сокращения, которые объединяются в цепочки для формирования выходных данных.