PySpark выбирает переопределение / добавление на основе существующих данных - PullRequest
0 голосов
/ 13 сентября 2018

Я новичок в Pyspark и у меня сложная ситуация. Я добавляю дату в свои данные следующим образом:

df = df.withColumn("Ingestion_Date", current_date())

Когда я записываю данные в RDS с использованием JDBC, я делаю:

df.write.format("jdbc") \
    .option("url", jdbcconf.get("url") + '/' + DATABASE + '?user=' + jdbcconf.get('user') + '&password=' + jdbcconf.get('password')) \
    .option("dbtable", TABLE_NAME) \
    .option("tempdir", args["TempDir"]) \
    .mode("overwrite") \
    .save()

Однако я не хочу просто перезаписывать данные. Я хочу проверить, есть ли у каких-либо данных метка даты. Если да, я хочу перезаписать, если нет, я хочу добавить. Я знаю, что мог бы попытаться записать в раздел (то есть разделить к определенной дате), но я не могу узнать, как это сделать. Есть мысли о простом способе сделать это?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...