Задания Spark могут быть настроены на разлив на локальный диск исполнителя, если для чтения ваших файлов недостаточно памяти.Или вы можете включить снимки HDFS и кэширование между этапами Spark.
Вы упоминаете CSV, который является плохим форматом для Hadoop в целом.Если у вас есть 100 ГБ CSV, вы также можете легко получить менее половины, если бы вы писали в Parquet или ORC ...
В конце дня вам понадобится какой-нибудь механизм обработки и некоторый уровень хранения.Например, Spark на Mesos или Kubernetes может работать так же хорошо, как и на YARN, но это отдельные системы, и они не связаны и не связаны так же хорошо, как HDFS и YARN.Кроме того, как и MapReduce, при использовании YARN вы перемещаете выполнение к NodeManager в датоданных, а не переносите данные по сети, что вы делали бы в других режимах выполнения Spark.NameNode и ResourceManagers координируют эту связь для того, где данные хранятся и обрабатываются
Если вы уверены, что MapReduceV2 может быть лучше, чем Spark, я бы посоветовал взглянуть на Tez вместо