Вы пробовали использовать скрипты hadoop-ec2 от cloudera? Я использовал их для настройки случайных кластеров hadoop для моего исследования диссертации, и я обнаружил, что они работают достаточно хорошо. Установка занимает несколько минут, но после ее установки вы просто делаете
hadoop-ec2 launch-cluster <clustername> <number of slaves>
, и он настраивает все, что вам нужно, и обычно делает действительно хорошую работу. Иногда узел не запускается или что-то в этом роде, но достаточно просто завершить кластер и повторить попытку, и это не будет стоить слишком много.
Инструкции по их установке можно найти здесь:
http://archive.cloudera.com/docs/ec2.html