Установка Hbase / Hadoop на кластер EC2 - PullRequest
13 голосов
/ 25 февраля 2011

Я знаю, что могу раскрутить кластер EC2 с установленным Hadoop (если я не ошибаюсь в этом).Как насчет Hbase ?Могу ли я иметь готовые к работе Hadoop и Hbase ?Или мне нужно испачкать руки.Если это не вариант, какой вариант лучше?У Cloudera, видимо, есть пакет с обоими.Это путь?

Спасибо за помощь.

Ответы [ 3 ]

7 голосов
/ 02 марта 2011

hbase имеет набор сценариев ec2, которые помогут вам настроить и готовы к работе очень быстро.Это позволяет вам настроить количество zk-серверов, а также подчиненных узлов, но я не уверен, в каких версиях они доступны.Я использую 0.20.6.После настройки некоторой информации о S3 / EC2 вы можете делать такие вещи:

/ usr / local / hbase-0.20.6 / contrib / ec2 / bin / launch-hbase-cluster CLUSTERNAME SLAVES ZKSERVERS

чтобы быстро начать использовать кластер.Это хорошо, потому что он также установит информацию LZO для вас.

Вот некоторые параметры из файла окружения в каталоге bin, которые могут быть полезны (если вы хотите 20,6 AMI):

# The version of HBase to use.
HBASE_VERSION=0.20.6

# The version of Hadoop to use.
HADOOP_VERSION=0.20.2

# The Amazon S3 bucket where the HBase AMI is stored.
# Change this value only if you are creating your own (private) AMI
# so you can store it in a bucket you own.
#S3_BUCKET=apache-hbase-images
S3_BUCKET=720040977164

# Enable public access web interfaces
ENABLE_WEB_PORTS=false

# Extra packages
# Allows you to add a private Yum repo and pull packages from it as your
# instances boot up. Format is <repo-descriptor-URL> <pkg1> ... <pkgN>
# The repository descriptor will be fetched into /etc/yum/repos.d.
EXTRA_PACKAGES=

# Use only c1.xlarge unless you know what you are doing
MASTER_INSTANCE_TYPE=${MASTER_INSTANCE_TYPE:-c1.xlarge}

# Use only c1.xlarge unless you know what you are doing
SLAVE_INSTANCE_TYPE=${SLAVE_INSTANCE_TYPE:-c1.xlarge}

# Use only c1.medium unless you know what you are doing
ZOO_INSTANCE_TYPE=${ZOO_INSTANCE_TYPE:-c1.medium}

Вам также может понадобиться установить версию Java, если JAVA_HOME не установлен в ami (и я не думаю, что это так).Более новые версии hbase, вероятно, доступны в сегментах S3, просто сделайте описание экземпляров и добавьте grep для hadoop / hbase, чтобы сузить результаты.

4 голосов
/ 26 февраля 2011

Из того, что я слышал, самый простой и быстрый способ запустить hbase на EC2 - использовать apache whirr .

2 голосов
/ 28 февраля 2011

Вам известно об Amazon Elastic MapReduce?Он не предлагает Hbase, но предлагает простые Hadoop, Hive и Pig (в довольно последних версиях).Большой выигрыш в том, что они не начнут заряжать вас до тех пор, пока 90% ваших узлов не заработают, недостатком является то, что в час есть небольшая надбавка к обычному EC2.

Если вам действительно нужно / хотите использовать HBase,вам может быть лучше раскрутить что-нибудь самостоятельно.См. Следующий пост в блоге Cloudera для обсуждения интеграции Hive и Hbase: http://www.cloudera.com/blog/2010/06/integrating-hive-and-hbase/

...