Выполнение заданий hadoop в Amazon ec2: многоузловой кластер - PullRequest
4 голосов
/ 13 декабря 2011

Мне нужно выполнить задания hadoop mapreduce в кластере Amazon EC2.

Я попытался выполнить настройку с использованием существующих AMI.Но после запуска master и клиентов "jps" не перечисляет никаких узлов.

ТАК, даже после использования публичного Hadoop AMI, мы должны выполнить настройку Hadoop для ведущих и подчиненных устройств?Как мастер узнает IP-адрес рабов ??

Может кто-нибудь, пожалуйста, направьте меня к некоторым хорошим документам.Я бьюсь над этим уже более 12 часов.

Может кто-нибудь помочь, пожалуйста?

Спасибо.

Ответы [ 2 ]

2 голосов
/ 13 декабря 2011

Другая альтернатива тому, что предложил Матфей, ​​- это использование Whirr.

Whirr позволяет действительно легко развернуть кластер Hadoop на Amazon, и вам не нужно платить за привлечение mapreduce. И вы можете контролировать версию кластера.

Вот домашняя страница проекта: http://whirr.apache.org/

Вот краткое руководство по установке Hadoop. Для работающего кластера Hadoop требуется около 5 минут. http://whirr.apache.org/docs/0.6.0/quick-start-guide.html

1 голос
/ 13 декабря 2011

Я бы вместо этого использовал платформу Amazon Elastic MapReduce.Вы можете динамически вращать как машины, так и кластеры, и вам не нужно беспокоиться о том, чтобы настроить их для общения друг с другом.

http://aws.amazon.com/elasticmapreduce/

Он используется многими людьми,и это в основном надежно.Это сэкономит вам абсолютную тонну работы, которую обычно тратят на настройку и администрирование кластера.Отличительной чертой обычного hadoop является только одна вещь - лучше поместить вещи в S3, а не в HDFS (поскольку кластеры временные, поэтому данные HDFS исчезают вместе с кластером).

...