Ниже приведены некоторые папки, которые могут обновляться со временем. У них есть несколько файлов .parquet. Как я могу прочитать их в кадре данных Spark в scala?
- "id = 200393 / date = 2019-03-25"
- "id = 200393 / date = 2019-03-26 "
- " id = 200393 / date = 2019-03-27 "
- " id = 200393 / date = 2019-03-28 "
- " id =200393 / дата = 2019-03-29 "и так далее ...
Примечание: - Может быть 100 папок с датами, мне нужно выбрать только конкретные (скажем, для 25,26 и 28)
Есть ли лучший способ, чем приведенный ниже?
import org.apache.spark._
import org.apache.spark.SparkContext._
import org.apache.spark.sql._
val spark = SparkSession.builder.appName("ScalaCodeTest").master("yarn").getOrCreate()
val parquetFiles = List("id=200393/date=2019-03-25", "id=200393/date=2019-03-26", "id=200393/date=2019-03-28")
spark.read.format("parquet").load(parquetFiles: _*)
Код выше работает, но я хочу сделать что-то вроде ниже-
val parquetFiles = List()
parquetFiles(0) = "id=200393/date=2019-03-25"
parquetFiles(1) = "id=200393/date=2019-03-26"
parquetFiles(2) = "id=200393/date=2019-03-28"
spark.read.format("parquet").load(parquetFiles: _*)