Question

Мне интересно - что можно считать хорошей пропускной способностью? для облегченной обработки текстовых данных hadoop на узел?
Чтобы быть более конкретным, я бы спросил: Допустим, я должен прочитать CSV-файлы, проанализировать их и подсчитать количество определенных значений в некотором столбце. Предположим, что значения редки, поэтому шаг сокращения быстрый.
Какую пропускную способность можно ожидать на узел hadoop от современных четырехъядерных процессоров / 4 ГБ ОЗУ / 4 дисков SATA?

hoffmaje · Answer 1 · 11 июня 2012

Я считаю вопрос обоснованным.У меня создается впечатление пропускной способности кластеров hadoop с

(SizeOfInput + SizeOfOutput) / RuntimeInSeconds / NumberOfDisks

Для Yahoo PB-Sort , которые работают на 3800 узлах с аппаратным оборудованием (2 диска на узел), это простое выражение оценивается в: 2,24 МБ / (с и диска).

Для заданий, связанных с вводом-выводом (поиск тестов DFSIO), вы найдете кластеры с примерно 20 МБ / с и диском).

Я думаю, что сейчас вы не найдете кластера hadoop с обычным аппаратным обеспечением, у которого гораздо больше 20 МБ / с на диске для заданий, связанных с вводом-выводом.Но я могу ошибаться.

Hadoop MapReduce вопрос пропускной способности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Hadoop MapReduce вопрос пропускной способности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов