Hadoop MapReduce вопрос пропускной способности - PullRequest
2 голосов
/ 31 января 2011

Мне интересно - что можно считать хорошей пропускной способностью? для облегченной обработки текстовых данных hadoop на узел?
Чтобы быть более конкретным, я бы спросил: Допустим, я должен прочитать CSV-файлы, проанализировать их и подсчитать количество определенных значений в некотором столбце. Предположим, что значения редки, поэтому шаг сокращения быстрый.
Какую пропускную способность можно ожидать на узел hadoop от современных четырехъядерных процессоров / 4 ГБ ОЗУ / 4 дисков SATA?

1 Ответ

1 голос
/ 11 июня 2012

Я считаю вопрос обоснованным.У меня создается впечатление пропускной способности кластеров hadoop с

(SizeOfInput + SizeOfOutput) / RuntimeInSeconds / NumberOfDisks

Для Yahoo PB-Sort , которые работают на 3800 узлах с аппаратным оборудованием (2 диска на узел), это простое выражение оценивается в: 2,24 МБ / (с и диска).

Для заданий, связанных с вводом-выводом (поиск тестов DFSIO), вы найдете кластеры с примерно 20 МБ / с и диском).

Я думаю, что сейчас вы не найдете кластера hadoop с обычным аппаратным обеспечением, у которого гораздо больше 20 МБ / с на диске для заданий, связанных с вводом-выводом.Но я могу ошибаться.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...