Только если DataNode также работает NodeManager. HDFS обрабатывает только данные. YARN обрабатывает вычисления. ResourceManager от YARN назначает вычислительные ресурсы NodeManager, которые по понятным причинам совмещены с узлами данных.
YARN и Spark пытаются переместить исполнителей в DataNodes / NodeManager, у которых есть данные, которые обрабатывает Spark (локальность данных), но это скорее оптимизация, а не жесткое требование. Тем более что большинство современных центров обработки данных имеют объединительные платы Ethernet 10 ГБ, поэтому стоимость перемещения данных на запасной узел обходится дешевле, чем раньше, когда перемещение данных по сети было дорогостоящим.