Какова типичная связь между вычислительной мощностью и емкостью хранения для крупномасштабных кластеров Hadoop? - PullRequest
4 голосов
/ 02 января 2012

Я рассматриваю измерение большого кластера (10 тыс. Ядер), который должен поддерживать как глубокую аналитику, связанную с вычислениями, так и большие данные, связанные с вводом / выводом, и я хочу услышать от некоторых людей, которые создали большой кластер данных, что они использовались для измерения вычислений по сравнению с локальным дисковым хранилищем. Я предполагаю, что архитектура хранения с прямым подключением поддерживается онлайн-хранилищами данных на основе MapReduced

Глядя на некоторое блейд-оборудование средней плотности anno 2012, такое как двойной Xeon 5650, я могу выделить примерно 2 ТБ на сервер в качестве хранилища с прямым подключением. Это дало бы мне около 100TFlops на 2TB памяти или 5: 1. Оборудование с меньшей плотностью может иметь низкое значение 1: 1, оборудование с более высокой плотностью может достигать 10: 1.

Мне было бы интересно услышать, какие коэффициенты работают у других пользователей больших данных.

Ответы [ 2 ]

2 голосов
/ 02 января 2012

Вот несколько статей 1 2 3 , чтобы начать с аппаратного определения размеров Hadoop.

1 голос
/ 14 января 2012

Из третьей статьи Правина, написанной Эриком Балдешвилером из HortonWorks от сентября 2011 года:

Нам задают много вопросов о том, как выбрать аппаратное обеспечение рабочего узла Apache Hadoop.За время работы в Yahoo !, мы купили много узлов с дисками SATA 6 * 2 ТБ, 24 ГБ ОЗУ и 8 ядрами в конфигурации с двумя разъемами.Это оказалось довольно хорошей конфигурацией.В этом году я видел системы с дисками SATA 12 * 2 ТБ, 48 ГБ ОЗУ и 8 ядрами в конфигурации с двумя сокетами.В этом году мы увидим переход на диски емкостью 3 ТБ.

Какая конфигурация имеет смысл для любой конкретной организации, определяется такими соотношениями, как соотношение объема хранения к вашей рабочей нагрузке и другими факторами, на которые невозможно ответить вобщий способ.Далее, индустрия оборудования движется быстро.В этой статье я попытаюсь обрисовать принципы, которые обычно определяли выбор конфигурации оборудования Hadoop в течение последних шести лет.Все эти идеи направлены на создание средних и больших кластеров Apache Hadoop.Скотт Кэри на днях написал список рассылки Apache для небольших машин для небольших кластеров.

...