Hadoop полностью распределенный режим - PullRequest
0 голосов
/ 03 июня 2011

Я новичок в Hadoop.Мне удалось разработать простое приложение Map / Reduce, которое отлично работает в «псевдораспределенном режиме». Я хочу проверить это в «полностью распределенном режиме».У меня есть несколько вопросов по этому поводу:

  1. Сколько машин (узлов) мне нужно (минимально и рекомендуется) для обработки файлов размером 1-10 ГБ?
  2. Каковы требования к оборудованию (в основном, я хочу знать количество ядер, объем памяти и дисковое пространство)?

1 Ответ

2 голосов
/ 06 июня 2011

Я бы ознакомился с рекомендациями Cloudera по аппаратному обеспечению: http://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/

Фрагмент этой страницы

Различные конфигурации оборудования для различных рабочих нагрузок, включая нашу первоначальную базовую рекомендацию:

  • Конфигурация обработки света (1U / машина): Два четырехъядерных процессора, 8 ГБ памяти и 4 дисковода (1 ТБ или 2 ТБ).Обратите внимание, что ресурсоемкая работа, такая как обработка естественного языка, включает загрузку больших моделей в ОЗУ перед обработкой данных и должна быть настроена с 2 ГБ ОЗУ / ядро ​​вместо 1 ГБ ОЗУ / ядро.
  • Сбалансированная вычислительная конфигурация (1U / машина): Два четырехъядерных процессора, память от 16 до 24 ГБ и 4 дисковода (1 ТБ или 2 ТБ), напрямую подключенные с помощью контроллера материнской платы.Они часто доступны в виде двойников с двумя материнскими платами и 8 приводами в одном корпусе 2U.
  • Конфигурация с большим объемом памяти (2U / машина): Два четырехъядерных процессора, память от 16 до 24 ГБ и 12 дисков (1 ТБ или 2 ТБ).Потребляемая мощность для этого типа машины начинается примерно в 200 Вт в режиме ожидания и может достигать 350 Вт в активном состоянии.
  • Интенсивная вычислительная конфигурация (2U / машина): Два четырехъядерных процессора, 48-72 ГБ памяти и 8 дисков (1 ТБ или 2 ТБ).Они часто используются, когда требуется сочетание больших моделей в оперативной памяти и кэширования больших справочных данных.
...