Я новичок в Pyspark и у меня сложная ситуация. Я добавляю дату в свои данные следующим образом:
df = df.withColumn("Ingestion_Date", current_date())
Когда я записываю данные в RDS с использованием JDBC, я делаю:
df.write.format("jdbc") \
.option("url", jdbcconf.get("url") + '/' + DATABASE + '?user=' + jdbcconf.get('user') + '&password=' + jdbcconf.get('password')) \
.option("dbtable", TABLE_NAME) \
.option("tempdir", args["TempDir"]) \
.mode("overwrite") \
.save()
Однако я не хочу просто перезаписывать данные. Я хочу проверить, есть ли у каких-либо данных метка даты. Если да, я хочу перезаписать, если нет, я хочу добавить. Я знаю, что мог бы попытаться записать в раздел (то есть разделить к определенной дате), но я не могу узнать, как это сделать. Есть мысли о простом способе сделать это?