Question

Я новичок в Pyspark и у меня сложная ситуация. Я добавляю дату в свои данные следующим образом:

df = df.withColumn("Ingestion_Date", current_date())

Когда я записываю данные в RDS с использованием JDBC, я делаю:

df.write.format("jdbc") \
    .option("url", jdbcconf.get("url") + '/' + DATABASE + '?user=' + jdbcconf.get('user') + '&password=' + jdbcconf.get('password')) \
    .option("dbtable", TABLE_NAME) \
    .option("tempdir", args["TempDir"]) \
    .mode("overwrite") \
    .save()

Однако я не хочу просто перезаписывать данные. Я хочу проверить, есть ли у каких-либо данных метка даты. Если да, я хочу перезаписать, если нет, я хочу добавить. Я знаю, что мог бы попытаться записать в раздел (то есть разделить к определенной дате), но я не могу узнать, как это сделать. Есть мысли о простом способе сделать это?

PySpark выбирает переопределение / добавление на основе существующих данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

PySpark выбирает переопределение / добавление на основе существующих данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы