MapReduce в облаке - PullRequest
       20

MapReduce в облаке

0 голосов
/ 05 июня 2010

За исключением Amazon MapReduce, какие еще есть варианты обработки большого количества данных?

Ответы [ 5 ]

1 голос
/ 13 июня 2012

Если вы хотите обрабатывать большие объемы данных в режиме реального времени (твиттер, поток кликов с веб-сайта) и т. Д. С использованием кластера машин, то посмотрите «шторм» , который недавно был открыт с помощью твиттера

Стандартный Apache Hadoop хорош для обработки в пакетном режиме с петабайтами данных, где задержка не является проблемой.

Brisk от DataStax, как упомянуто выше, является уникальным в том смысле, что вы можете использовать MapReduce Parallel для обработки живых данных.

Существуют и другие усилия, такие как Hadoop Online , который позволяет обрабатывать с использованием конвейера.

Google BigQuery, очевидно, еще один вариант, где у вас есть csv (записи с разделителями), и вы можете нарезать и нарезать кубиками без какой-либо настройки. Он чрезвычайно прост в использовании, но это сервис премиум-класса, за который вам нужно платить. обработанных байтов (хотя первые 100 ГБ в месяц бесплатны).

1 голос
/ 12 июня 2012

DataStax Brisk - это хорошо.

Полный дистрибутив

  1. Apache Hadoop
  2. Распространение Cloudera, включая Apache Hadoop (это официальное название)
  3. IBM Distribution Apache Hadoop
  4. DataStax Brisk
  5. Amazon Elastic MapReduce

HDFS альтернативы

  1. Mapr
  2. Appistry CloudIQ Storage Hadoop Edition
  3. Глобальная параллельная файловая система IBM (GPFS)
  4. CloudStore

Hadoop MapReduce альтернативы

  1. Pervasive DataRush
  2. каскадный
  3. Hive (подпроект Apache, включенный в дистрибутив Cloudera)
  4. Свинья (язык, разработанный Yahoo, включен в дистрибутив Cloudera)

См .: http://gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/

1 голос
/ 18 апреля 2012

У Microsoft также есть Hadoop / MapReduce, работающий в Windows Azure, но он имеет ограниченную CTP, однако вы можете предоставить свою информацию и запросить доступ к CTP по ссылке ниже: https://www.hadooponazure.com/ Предварительный просмотр разработчика для служб Apache Hadoop для Windows Azure доступен по приглашению.

Кроме того, вы также можете попробовать Google BigQuery, в котором вам сначала нужно будет перенести свои данные в хранилище Google, а затем запустить на нем BigQuery. Помните, что BigQuery основан на Dremel, который похож на MapReduce, но быстрее из-за обработки поиска по столбцам.

Существует еще один вариант - использовать Mortar Data, так как они используют python и pig, разумно для простого написания заданий и визуализации результатов. Я нашел это очень интересным, пожалуйста, посмотрите: http://mortardata.com/#!/how_it_works

0 голосов
/ 26 февраля 2011

Google App Engine также выполняет MapReduce (по крайней мере, пока часть карты). http://code.google.com/p/appengine-mapreduce/

0 голосов
/ 26 февраля 2011

Если вы хотите остаться в облаке, вы также можете раскрутить экземпляры EC2, чтобы создать постоянный кластер Hadoop. У Cloudera достаточно ресурсов для настройки такого кластера здесь .

Однако этот вариант менее рентабелен, чем Amazon Elastic Mapreduce, если только у вас нет большого количества заданий, которые можно выполнять в течение дня, и при этом кластер будет достаточно занят.

Другой вариант - создать собственный кластер. Одна из приятных особенностей Hadoop заключается в том, что вы можете объединять разнородное оборудование в кластер с приличной вычислительной мощностью. Вид, который может жить в стойке в вашей серверной комнате. Принимая во внимание, что старое аппаратное обеспечение, которое лежит в стороне, уже оплачено, единственные затраты на создание такого кластера - это новые диски и, возможно, достаточно памяти, чтобы максимизировать емкость этих блоков. Тогда экономическая эффективность такого подхода намного лучше, чем у Amazon. Единственное предостережение заключается в том, есть ли у вас полоса пропускания, необходимая для регулярной загрузки всех данных в HDFS кластера.

...