У меня есть сценарий, в котором я извлекаю данные в pispark DataFrame, используя spark sql.Сценарий показан ниже:
from pyspark import SparkContext, SparkConf, HiveContext
from pyspark.sql import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
df_query = """
select
*
from schema.table
where start_date between date '2019-03-01' and date '2019-03-07'
"""
df = spark.sql(df_query)
В настоящее время сценарий извлекает данные за определенную неделю.Тем не менее, я хочу повторить этот сценарий в течение всех недель.Как я могу это сделать?