Я рассматриваю измерение большого кластера (10 тыс. Ядер), который должен поддерживать как глубокую аналитику, связанную с вычислениями, так и большие данные, связанные с вводом / выводом, и я хочу услышать от некоторых людей, которые создали большой кластер данных, что они использовались для измерения вычислений по сравнению с локальным дисковым хранилищем. Я предполагаю, что архитектура хранения с прямым подключением поддерживается онлайн-хранилищами данных на основе MapReduced
Глядя на некоторое блейд-оборудование средней плотности anno 2012, такое как двойной Xeon 5650, я могу выделить примерно 2 ТБ на сервер в качестве хранилища с прямым подключением. Это дало бы мне около 100TFlops на 2TB памяти или 5: 1. Оборудование с меньшей плотностью может иметь низкое значение 1: 1, оборудование с более высокой плотностью может достигать 10: 1.
Мне было бы интересно услышать, какие коэффициенты работают у других пользователей больших данных.