Spark - это механизм вычисления кластера, он не реплицирует данные или хранимые данные неявно. Обработка искры основана на rdd, если из-за сбоя узла какой-либо раздел данных потерян, его можно пересчитать с помощью DAG.
Хотя при сохранении данных вы можете хранить данные в памяти или на диске. Например, StorageLevel.MEMORY_ONLY_2 означает, что разделы rdd будут реплицированы дважды при сохранении их в памяти.