Этот вопрос является почти точной копией требования здесь: Запись файлов в локальную систему с помощью Spark в режиме кластера
но мой запрос с изюминкой. На приведенной выше странице файлы из HDFS записываются непосредственно в локальную файловую систему с использованием spark, но после преобразования их в RDD.
Я нахожусь в поиске вариантов, доступных только с Dataframe; преобразование в СДР для огромных данных сказывается на использовании ресурсов.