Я волнуюсь, нет никакого способа сделать это.
Если ваши данные структурированы, как показано ниже (с месяцем =, год = ...), мы называем это разделом.
s3bucket/
year=YYYY/
month=mm/
day=dd/
hour=hh/
files.gz
files.gz
files.gz
И вы можете легко загрузить свои данные (в вашем случае по определенным дням)
data = spark.read.format("s3selectJson").options(compression="GZIP", multiline=True) \
.load("s3://s3bucket/")
data_days = data.filter("day in (10, 20)")
С разделом Spark загружает только ваши конкретные дни, а не все дни.