Короче говоря, вы хотите максимально увеличить количество процессорных ядер и дисков. Вы можете пожертвовать надежностью и качеством, но не получите самое дешевое оборудование, так как у вас будет слишком много проблем с надежностью.
Мы использовали 4-ядерные серверы Dell 2xCPU, то есть по 8 ядер на коробку. 16 ГБ памяти на блок, что составляет 2 ГБ на ядро, немного меньше, так как вам нужна память как для ваших задач, так и для буферизации диска. Жесткие диски 5x500 ГБ, и я бы хотел, чтобы мы взяли вместо них терабайт или более высокие.
Для накопителей мое мнение заключается в том, чтобы покупать более дешевые, медленные, ненадежные накопители большой емкости в отличие от более дорогих, более быстрых, компактных и надежных накопителей. Если у вас есть проблемы с пропускной способностью диска, больше буферизации поможет с буферизацией.
Вероятно, это более сложная конфигурация, чем вы ожидаете, но, как правило, оптимальным вариантом является максимальное использование ядер и дисков по сравнению с покупкой большего количества блоков - меньшие затраты на электроэнергию, более простое администрирование и более быстрое выполнение некоторых операций.
Чем больше дисков, тем больше пропускная способность диска на ядро, поэтому хорошо иметь столько дисков, сколько ядер. Сравнительный анализ, кажется, указывает на то, что конфигурации RAID медленнее, чем конфигурация JBOD (просто монтирование дисков и распределение нагрузки по ним через Hadoop), и JBOD также более надежен.
ПОСЛЕДНИЙ! Обязательно получите ECC-память. Hadoop проталкивает терабайты данных через память, и некоторые пользователи обнаружили, что конфигурации памяти не-ECC могут иногда приводить к ошибкам в один бит в наборах данных размером в терабайт. Отладка этих ошибок - кошмар.