Hadoop на EC2 против ElasticMapReduce / S3 - PullRequest
3 голосов
/ 30 марта 2012

Я использовал ElasticMapReduce в течение некоторого времени. Это довольно удобно, но я не могу запустить HBase, так как кластер Hadoop доступен только временно (я задал несколько связанный вопрос на HBase и Hadoop ).

Итак, я хочу попробовать установить Hadoop на набор машин EC2. Я знаю, что в Hadoop есть каталог, связанный с EC2 - src / contrib / ec2. Похоже, кластер Hadoop можно запустить, просто набрав команду, и я могу войти в главный узел для запуска заданий и так далее. Прежде чем пытаться это, я хотел бы узнать какие-либо ошибки от госзакупок, которые использовали это. Спасибо!

1 Ответ

0 голосов
/ 01 апреля 2012

На самом деле есть два варианта использования hadoop на amazon - предоставление собственного кластера или использование EMR. Ортогонально этому решению вы можете использовать HDFS или S3 в качестве файловой системы. Это не короткая история, но я постараюсь выделить некоторые плюсы / минусы всех этих выборов.
Вы можете использовать EMR, если вам нужно выполнять одно / несколько заданий в день и вам не нужен кластер hadoop постоянно. В этом случае вы помещаете свои данные в s3 и можете полностью написать сценарий процесса. Главное неудобство - это нелегко настроить, использовать сторонние библиотеки и т. Д. В этом случае вы также экономите время установки кластера. Если вы хотите настроить hadoop - вам нужно установить собственный кластер.
Если ваши данные уже находятся в s3 или вам нужно сохранить их после обработки - s3 - хороший выбор. В то же время вы получите значительно меньшую производительность, чем при использовании HDFS. Необходимо отметить, что у экземпляров amazon очень мало локального хранилища - поэтому оно становится действительно дорогим, и вы должны поддерживать кластер (и платить за него) только для того, чтобы сохранить это хранилище.
Я бы сказал, что если вам действительно нужна HDFS со всем ее throuput, вам действительно нужен собственный кластер на собственном оборудовании. Когда вы работаете на Amazon - наиболее практично использовать S3 в качестве файловой системы.

...