Генерация подчиненных по требованию в кластере Hadoop на EC2 - PullRequest
1 голос
/ 15 августа 2010

Я планирую использовать Hadoop на EC2. Так как мы должны платить за использование экземпляра, нехорошо иметь фиксированное количество экземпляров, которое фактически требуется для работы.

В нашем приложении многие задания выполняются одновременно, и мы не знаем требования подчиненного все время. Можно ли запустить кластер hadoop с минимальным количеством ведомых устройств, а затем управлять доступностью на основе требований?

т.е. создавать / уничтожать рабов по требованию

Подвопрос: Может ли кластер hadoop одновременно управлять несколькими заданиями?

Спасибо

Ответы [ 3 ]

1 голос
/ 03 сентября 2010

Планировщик по умолчанию, который используется в hadoop, является простым FIFO, вы можете использовать FairScheduler, который назначает общий ресурс кластера для каждого из выполняющихся заданий и имеет расширенную конфигурацию для управления этими общими ресурсами.

Что касается EC2 - вы можете легко начать с некоторого числа узлов, а затем, как только увидите, что в очереди слишком много задач и все слоты в кластере заняты - добавьте их больше. Вам просто нужно запустить экземпляр и запустить на нем трекер задач, который зарегистрируется в трекере заданий.

Однако вам потребуется собственная система, которая будет управлять запуском и отключением этих узлов.

0 голосов
/ 10 июня 2011

Просто хочу сообщить, что мы работаем над этим в Apache Whirr .Мы отслеживаем прогресс в WHIRR-214 .Голосуйте или присоединяйтесь к разработке.:)

0 голосов
/ 09 сентября 2010

Это кажется многообещающим http://hadoop.apache.org/common/docs/r0.17.1/hod.html

...