Я считаю вопрос обоснованным.У меня создается впечатление пропускной способности кластеров hadoop с
(SizeOfInput + SizeOfOutput) / RuntimeInSeconds / NumberOfDisks
Для Yahoo PB-Sort , которые работают на 3800 узлах с аппаратным оборудованием (2 диска на узел), это простое выражение оценивается в: 2,24 МБ / (с и диска).
Для заданий, связанных с вводом-выводом (поиск тестов DFSIO), вы найдете кластеры с примерно 20 МБ / с и диском).
Я думаю, что сейчас вы не найдете кластера hadoop с обычным аппаратным обеспечением, у которого гораздо больше 20 МБ / с на диске для заданий, связанных с вводом-выводом.Но я могу ошибаться.