На самом деле, основная идея, стоящая за распределенными системами и, конечно же, которая разработана и реализована в hadoop и spark, заключается в отправке процесса в данные. Другими словами, представьте, что некоторые данные находятся в узлах данных hdfs в нашем кластере, и у нас есть задание, которое использует эти данные на одном и том же работнике. На каждой машине у вас был бы узел данных, который одновременно является рабочим и может иметь некоторые другие процессы, такие как сервер региона hbase. Когда исполнитель выполняет одну из запланированных задач, он получает необходимые данные из базового узла данных. Затем для каждой отдельной задачи вы извлекаете ее данные, поэтому вы можете описать это как одно соединение с hdfs на его локальном узле данных.