HDFS
- это распределенная файловая система. Таким образом, данные о погоде будут автоматически распределены между 3 подчиненными узлами. По умолчанию он будет реплицирован 3 раза. Узлы 1, 2 и 3 могут содержать фрагменты данных из всех 3 временных периодов (1900-1929, 1930-1959, 1960-1989). Это распространение и репликация выполняются автоматически при загрузке данных в HDFS
. Существует главный узел, называемый NameNode
, который хранит информацию метаданных о сопоставлении блоков файлов и узлов, на которых они находятся.
MapReduce
- это метод распределенной обработки данных. Задание MapReduce
, отправленное в кластер, будет автоматически распределено по 3 узлам. Задачи сопоставления и сокращения будут выполняться на узлах, пытаясь максимально использовать локальность данных. Это означает, что каждый узел будет пытаться обрабатывать данные, хранящиеся на нем, когда это возможно. Если есть сбои задачи, они будут повторяться до определенного количества раз. Все это происходит автоматически при выполнении задания.
Для более глубокого погружения, пожалуйста, ознакомьтесь с учебником Hadoop MapReduce .