Планировщик по умолчанию, который используется в hadoop, является простым FIFO, вы можете использовать FairScheduler, который назначает общий ресурс кластера для каждого из выполняющихся заданий и имеет расширенную конфигурацию для управления этими общими ресурсами.
Что касается EC2 - вы можете легко начать с некоторого числа узлов, а затем, как только увидите, что в очереди слишком много задач и все слоты в кластере заняты - добавьте их больше. Вам просто нужно запустить экземпляр и запустить на нем трекер задач, который зарегистрируется в трекере заданий.
Однако вам потребуется собственная система, которая будет управлять запуском и отключением этих узлов.