Hadoop, аппаратная и биоинформатика - PullRequest
3 голосов
/ 18 февраля 2011

Мы собираемся купить новое оборудование для проведения анализа и задаемся вопросом, принимаем ли мы правильные решения.

Настройка:
Мы - лаборатория биоинформатики, которая будет обрабатывать данные секвенирования ДНК. Самая большая проблема в нашем поле - это объем данных, а не вычисления. Один эксперимент быстро войдет в 10–100 Гб, и мы, как правило, проводим разные эксперименты одновременно. Очевидно, что методы mapreduce интересны (см. Также http://abhishek -tiwari.com / 2010/08 / mapreduce-and-hadoop-алгоритмы-в-биоинформатике-paper.html ), но не все наши программы используют эта парадигма. Кроме того, некоторые программы используют файлы ascii как входные / выходные данные, в то время как другие программы работают с двоичными файлами.

Что мы могли бы купить:
Машиной, которую мы могли бы купить, был бы сервер с 32 ядрами и 192 ГБ ОЗУ, связанный с хранилищем NAS (> 20 ТБ). Это кажется очень интересной для нас настройкой для многих из наших приложений (не для mapreduce), но помешает ли такая конфигурация реализовать особым образом hadoop / mapreduce / hdfs?

Большое спасибо,
Январе

1 Ответ

4 голосов
/ 19 февраля 2011

У вас интересная конфигурация.Каким будет дисковый ввод-вывод для используемого хранилища NAS?

Примите решение, основываясь на следующем: парадигма Map Reduce используется для решения проблемы обработки большого количества данных.По сути, оперативная память дороже, чем дисковое хранилище.Вы не можете хранить все данные в оперативной памяти.Дисковое хранилище позволяет хранить большие объемы данных с меньшими затратами.Но скорость чтения данных с дисков не очень высока.Как Map Reduce решает эту проблему?Map Reduce решает эту проблему, распределяя данные по нескольким машинам.Теперь скорость параллельного чтения данных выше, чем вы могли бы сделать с одним диском хранения.Предположим, что скорость дискового ввода-вывода составляет 100 Мбит / с.С помощью 100 машин вы можете читать данные со скоростью 100 * 100 Мбит / с = 10 Гбит / с.

Обычно скорость процессора не является узким местом.Скорее всего, дисковые операции ввода-вывода являются большими узкими местами при обработке большого количества данных.

У меня такое ощущение, что это может быть не очень эффективно.

...