Я хочу создать al oop в pyspark, где я даю месяц, и он должен выбрать таблицу в конце месяца и в конце месяца предыдущего месяца. Выбор месяца производится строкой. Поэтому я даю «201901», и он должен выбрать «20190131» и «20181231».
И, если возможно, он должен запускаться автоматически и выбирать конец предыдущего месяца с сегодняшнего дня и конец предыдущего предыдущего месяца сегодня. Итак, сегодня у нас 2020-05-07, поэтому следует выбрать «20200430» и «20200331».
def selectTables(date):
i = 0
for i in range(len(date)):
recentDate = .... # should be for the first iteration '20190131'
previousDate = .... # should be for the first iteration '20181231'
recent = spark.read.parquet('table.parquet/date=' + recentDate[i])
previous = spark.read.parquet('table.parquet/date=' + previousDate[i])
selectTables(['201901', '201902'])