Question

За исключением Amazon MapReduce, какие еще есть варианты обработки большого количества данных?

Sathish Senathi · Answer 1 · 13 июня 2012

Если вы хотите обрабатывать большие объемы данных в режиме реального времени (твиттер, поток кликов с веб-сайта) и т. Д. С использованием кластера машин, то посмотрите «шторм» , который недавно был открыт с помощью твиттера

Стандартный Apache Hadoop хорош для обработки в пакетном режиме с петабайтами данных, где задержка не является проблемой.

Brisk от DataStax, как упомянуто выше, является уникальным в том смысле, что вы можете использовать MapReduce Parallel для обработки живых данных.

Существуют и другие усилия, такие как Hadoop Online , который позволяет обрабатывать с использованием конвейера.

Google BigQuery, очевидно, еще один вариант, где у вас есть csv (записи с разделителями), и вы можете нарезать и нарезать кубиками без какой-либо настройки. Он чрезвычайно прост в использовании, но это сервис премиум-класса, за который вам нужно платить. обработанных байтов (хотя первые 100 ГБ в месяц бесплатны).

Amar · Answer 2 · 12 июня 2012

DataStax Brisk - это хорошо.

Полный дистрибутив

Apache Hadoop
Распространение Cloudera, включая Apache Hadoop (это официальное название)
IBM Distribution Apache Hadoop
DataStax Brisk
Amazon Elastic MapReduce

HDFS альтернативы

Mapr
Appistry CloudIQ Storage Hadoop Edition
Глобальная параллельная файловая система IBM (GPFS)
CloudStore

Hadoop MapReduce альтернативы

Pervasive DataRush
каскадный
Hive (подпроект Apache, включенный в дистрибутив Cloudera)
Свинья (язык, разработанный Yahoo, включен в дистрибутив Cloudera)

См .: http://gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/

AvkashChauhan · Answer 3 · 18 апреля 2012

У Microsoft также есть Hadoop / MapReduce, работающий в Windows Azure, но он имеет ограниченную CTP, однако вы можете предоставить свою информацию и запросить доступ к CTP по ссылке ниже: https://www.hadooponazure.com/ Предварительный просмотр разработчика для служб Apache Hadoop для Windows Azure доступен по приглашению.

Кроме того, вы также можете попробовать Google BigQuery, в котором вам сначала нужно будет перенести свои данные в хранилище Google, а затем запустить на нем BigQuery. Помните, что BigQuery основан на Dremel, который похож на MapReduce, но быстрее из-за обработки поиска по столбцам.

Существует еще один вариант - использовать Mortar Data, так как они используют python и pig, разумно для простого написания заданий и визуализации результатов. Я нашел это очень интересным, пожалуйста, посмотрите: http://mortardata.com/#!/how_it_works

willi · Answer 4 · 26 февраля 2011

Google App Engine также выполняет MapReduce (по крайней мере, пока часть карты). http://code.google.com/p/appengine-mapreduce/

Ronen Botzer · Answer 5 · 26 февраля 2011

Если вы хотите остаться в облаке, вы также можете раскрутить экземпляры EC2, чтобы создать постоянный кластер Hadoop. У Cloudera достаточно ресурсов для настройки такого кластера здесь .

Однако этот вариант менее рентабелен, чем Amazon Elastic Mapreduce, если только у вас нет большого количества заданий, которые можно выполнять в течение дня, и при этом кластер будет достаточно занят.

Другой вариант - создать собственный кластер. Одна из приятных особенностей Hadoop заключается в том, что вы можете объединять разнородное оборудование в кластер с приличной вычислительной мощностью. Вид, который может жить в стойке в вашей серверной комнате. Принимая во внимание, что старое аппаратное обеспечение, которое лежит в стороне, уже оплачено, единственные затраты на создание такого кластера - это новые диски и, возможно, достаточно памяти, чтобы максимизировать емкость этих блоков. Тогда экономическая эффективность такого подхода намного лучше, чем у Amazon. Единственное предостережение заключается в том, есть ли у вас полоса пропускания, необходимая для регулярной загрузки всех данных в HDFS кластера.

MapReduce в облаке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

MapReduce в облаке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы