В настоящее время я пытаюсь сделать что-то вроде следующего в pyspark:
def data_range(star, end):
data_generated = [start + datetime.timedelta(days=x) for x in range(0, (end-start).days)]
return F.array([F.lit(i) for i in date_generated])
Это работало в прошлом, когда я установил начало и конец, используя что-то вроде datetime.datetime.strptime ("some string "et c ...
Однако теперь я намерен установить начало и конец на основе значения столбца типа даты, например F.col (" start ")
Когда я Сделайте это, я получаю следующую ошибку TypeError: 'column' object cannot be interpreted as an integer
Я знаю, что могу обойти это с помощью UDF, но в идеале я бы хотел использовать способ без вышеупомянутого udf.
Спасибо