Вы можете заранее получить имена файлов следующим образом:
improt org.apache.spark.sql.DataFrame
import scala.sys.process._
val fileNames: List[String] = "hdfs dfs -ls /path/to/files/on/hdfs".!!
.split("\n")
.filter(_.endsWith(".parquet"))
.map(_.split("\\s").last).toList
val df: DataFrame = spark.read.parquet(fileNames:_*)
spark
в приведенном выше коде является объектом SparkSession
.Этот код должен работать и для версий Spark 1.x, поскольку сигнатура метода для parquet()
одинакова в версиях Spark 1.x и Spark 2.x.