Had oop - это имя, которое относится ко всей системе.
HDFS - фактическая система хранения. Думайте об этом как о S3 или распределенной Linux файловой системе.
YARN - это структура для планирования заданий и распределения ресурсов. Он обрабатывает эти вещи для вас, но вы не очень с ним взаимодействуете.
Spark и MapReduce управляются Yarn. С этими двумя вы можете фактически написать свой код / приложения и дать работу кластеру.
HBase использует хранилище HDFS (с файловой базой) и обеспечивает Sql хранилище.
Теоретически вы можете запускать на Yarn больше, чем просто Spark и MapReduce, и можете использовать что-то еще, кроме Yarn (Kubernetes находится в разработке или поддерживается). Вы даже можете написать свой собственный инструмент обработки, систему управления очередями / ресурсами, хранилище ... Если бы у oop было много частей, которые вы можете использовать или нет, в зависимости от вашего случая. Но большинство систем Had oop используют Yarn и Spark.
Если вы хотите развернуть, например, контейнеры Docker, лучшим выбором будет кластер Kubernetes. Если вам нужна пакетная / реальная обработка в Spark, используйте Had oop.