Кто-нибудь может объяснить мне стек Hadoop? - PullRequest
3 голосов
/ 06 декабря 2011

Я хочу понять и, вероятно, поиграть с Hadoop и смотрю проекты с открытым исходным кодом из facebook здесь .Кажется, многим слишком много, чтобы обернуть мою голову.Если кто-то может объяснить, где и как подходит каждый из этих проектов, это было бы очень полезно.

В качестве фона я думаю о работе над проектом, основным драйвером которого являются изображения.Поэтому хочется начинать все сразу, выбирая платформу (решение).Поэтому, пожалуйста, не стесняйтесь предлагать и другие технологии.

Ответы [ 3 ]

1 голос
/ 15 декабря 2011

Я написал статью на эту тему в прошлом месяце:

Вселенная Hadoop

Я думаю, что это разумно объясняет все связанные с Hadoop проекты Apache в каждом параграфе.

1 голос
/ 06 декабря 2011

У Cloudera есть таблица, которая дает эквиваленты основных проектов Hadoop в терминах стека Google:

MapReduce | MapReduce
GFS       | HDFS
BigTable  | HBase
Chubby    | ZooKeeper
Sawzall   | Hive, Pig

Это, и особенно первые четыре, являются основными компонентами, на которых строятся другие.MapReduce порождает работников как можно ближе к данным, с которыми они будут работать.HDFS реплицирует неструктурированные данные.HBase - это хранилище столбцов.ZooKeeper выполняет поиск сервисов, блокировку и выбор лидера.Hive и Pig - это высокоуровневые языки запросов, которые реализованы в виде вычислений MapReduce для данных HBase.

В экосистеме проекта есть гораздо больше от автономных инструментов, таких как Avro (сериализация, буферы протокола анализа)наборы инструментов, такие как Mahout (машинное обучение), для полнофункциональных продуктов, таких как Nutch (поисковая система и поисковая система, из которой был выделен Hadoop).

Интеграторы создают дистрибутивы стеков Hadoop и Hadoop (Hadoop свободнов сочетании, а некоторые предоставляют альтернативы важным компонентам);основные проекты поддерживаются фондом Apache.

0 голосов
/ 06 декабря 2011

Экосистема Hadoop растет очень быстрыми темпами. Существуют программы с открытым исходным кодом (например, Cloudera) / коммерческие (например, MapR). Начните с карты мира экосистемы Hadoop и перейдите на следующий уровень по мере необходимости. Статья немного устарела, но актуальна.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...