Я использую записную книжку Databricks с Spark и Scala для чтения данных из S3
в DataFrame:
myDf = spark.read.parquet(s"s3a://data/metrics/*/*/*/)
.где *
подстановочные знаки представляют год / месяц / день.
Или я просто прописал это жестко: myDf = spark.read.parquet(s"s3a://data/metrics/2018/05/20/)
Теперь я хочу добавить параметр часа сразу после дня.Идея состоит в том, чтобы получить данные из S3
за последний доступный час.
Если я сделаю myDf = spark.read.parquet(s"s3a://data/metrics/2018/05/20/*)
, тогда я получу данные за все часы 20 мая.
Как можно добиться этого в записной книжке Databricks без жесткого кодирования часа?