JobTracker, TaskTracker и MasterNode не являются реальными вещами в Hadoop 2+ с YARN.Задания передаются в ResourceManager , который создает ApplicationMaster на одном из NodeManager s.
«Ведомые узлы» обычно также являются вашими узлами данных, поскольку это основной клиент Hadoop - переместите обработку в данные .
Стрелка «Получить данные» является двунаправленной, и стрелка из NameNode в DataNode отсутствует.1) Получите местоположения файлов из NameNode, затем местоположения будут отправлены обратно клиентам.2) Клиенты (т. Е. Процессы NodeManager, работающие на узле данных или «подчиненные узлы») будут напрямую считывать данные с самих узлов данных - узлы данных не знают напрямую, где существуют другие подчиненные узлы.
При этом HDFS и YARN, как правило, являются частью одного и того же «пузыря», поэтому обозначенный вами круг «HDFS» действительно должен быть вокруг всего.