Может ли кто-нибудь дать простое объяснение новичку высокого уровня о том, как работает Hadoop? - PullRequest
7 голосов
/ 23 марта 2010

Я знаю, как работает memcached. Как работает Hadoop?

1 Ответ

9 голосов
/ 23 марта 2010

Hadoop состоит из ряда компонентов, каждый из которых является подпроектом проекта Apache Hadoop. Двумя основными из них являются Распределенная файловая система Hadoop (HDFS) и MapReduce Framework .

Идея заключается в том, что вы можете объединить несколько готовых компьютеров в сеть для создания кластера. HDFS работает в кластере. По мере добавления данных в кластер они разделяются на большие куски / блоки (обычно 64 МБ) и распределяются по кластеру. HDFS позволяет реплицировать данные для восстановления после сбоев оборудования. Он почти ожидает аппаратные сбои, поскольку предназначен для работы со стандартным оборудованием. HDFS основана на статье Google об их распределенной файловой системе GFS.

Платформа Hadoop MapReduce работает с данными, хранящимися в HDFS. MapReduce 'jobs' нацелена на обеспечение возможности обработки на основе ключа / значения очень параллельным способом. Поскольку данные распределены по кластеру, задание MapReduce можно разделить для запуска множества параллельных процессов над данными, хранящимися в кластере. Части Map в MapReduce работают только с теми данными, которые они видят, т.е. с блоками данных на конкретной машине, на которой они работают. Reduce объединяет выходные данные из карт.

Результатом является система, которая обеспечивает возможность высокопараллельной пакетной обработки. Система хорошо масштабируется, поскольку вам просто нужно добавить больше оборудования, чтобы увеличить возможности ее хранения или сократить время, необходимое для выполнения задания MapReduce.

Некоторые ссылки:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...