Для Spark, работающего на локальном компьютере, существует официальный блог , в котором рассказывается, как получить доступ к хранилищу BLOB-объектов Azure из Spark.Ключ заключается в том, что вам необходимо настроить учетную запись хранилища Azure в качестве HDFS-совместимого хранилища в файле core-site.xml и добавить два jar hadoop-azure и azure-storage в ваш путь к классам для доступа к HDFS через протокол wasb [s].Вы можете обратиться к официальному учебнику , чтобы узнать HDFS-совместимое хранилище с wasb, и блогу о конфигурации для HDInsight. Подробнее *
Для Spark, работающего в Azure,разница заключается только в доступе к HDFS с помощью wasb, другие приготовления были сделаны Azure при создании кластера HDInsight с помощью Spark.Для перечисления файлов используется метод listFiles или wholeTextFiles для SparkContext.
Надеюсь, это поможет.