Hadoop на Amazon Cloud - PullRequest
       39

Hadoop на Amazon Cloud

0 голосов
/ 07 ноября 2011

Я пытаюсь настроить Amazon Cloud для запуска некоторых заданий hadoop MapReduce, но я пытаюсь успешно создать кластер.Я скачал файлы ec2, у меня есть сертификаты и файл пар ключей, но я считаю, что именно AMI вызывают у меня проблемы.Если я пытаюсь запустить кластер с главным узлом и n подчиненными узлами, я запускаю n + 1 экземпляров, используя стандартные совместимые AMI, а затем запускаю код «hadoop-ec2 launch-cluster name n» в терминале.Главный узел успешен, но я получаю сообщение об ошибке, когда подчиненные узлы начинают запускаться, говоря: «отсутствует параметр -h (отсутствует AMI)», и я не совсем уверен, как продвигаться.

Кроме того, некоторыеиз моих заданий потребуется изменить настройки параметров hadoops (в частности, файл конфигурации mapred-site.xml), возможно ли изменить этот файл, и если да, как мне получить к нему доступ?Хэдуп уже установлен на компьютерах Amazon с этим файлом, доступным и изменяемым?

Спасибо

1 Ответ

1 голос
/ 08 ноября 2011

Вы пробовали Amazon Elastic MapReduce ?Это простой API, который вызывает кластеры Hadoop определенного размера по требованию.

Это проще, чем создавать собственный кластер вручную.

Но как только рабочий процесс завершается по умолчанию, он отключает кластер, оставляя вам выходы на S3.Если вам нужно просто что-то сделать, это может быть правильным способом.

Если вам нужно, чтобы содержимое HDFS сохранялось постоянно (например, если вы используете HBase поверх Hadoop), вам, возможно, понадобится собственныйкластер на EC2.В этом случае может оказаться полезным распределение Cloudera Hadoop для Amazon EC2.

Изменение конфигурации Hadoop на узлах, которые он запустит, возможно с помощью Действия начальной загрузки EC2 :

В: Как настроить параметры Hadoop для моего потока работ?

Конфигурация Hadoop по умолчанию в Elastic MapReduce подходит для большинства рабочих нагрузок.Однако, исходя из конкретных требований к памяти и обработке вашего потока работ, может оказаться целесообразным настроить эти параметры.Например, если ваши задачи потока работ требуют много памяти, вы можете использовать меньше задач на ядро ​​и уменьшить размер кучи трекера заданий.Для этой ситуации доступно предопределенное Bootstrap Action для настройки вашего потока заданий при запуске.См. Configure Memory Intensive Bootstrap Action в Руководстве разработчика для подробностей конфигурации и инструкций по использованию.Доступно дополнительное предопределенное действие начальной загрузки, которое позволяет настроить параметры кластера на любое значение по вашему выбору.Инструкции по использованию см. В Настройка действия Hadoop Bootstrap в Руководстве разработчика.

О том, как вы запускаете кластер, пожалуйста, уточните:

Если я пытаюсь запустить кластер с главным узлом и n подчиненными узлами, я запускаюn + 1 экземпляры, использующие стандартные совместимые AMI, а затем запускают код «hadoop-ec2 launch-cluster name n» в терминале.Главный узел успешен, но я получаю сообщение об ошибке, когда ведомые узлы начинают запускаться, говоря: «отсутствует параметр -h (отсутствует AMI)», и я не совсем уверен, как двигаться дальше.

Как именно вы пытаетесь начать это?Какие именно AMI вы используете?

...