Нет прямого способа обновления / удаления в реляционной базе данных с помощью задания Pyspark, но есть обходные пути.
(1) Вы можете создать идентичную пустую таблицу (вторичную таблицу) в реляционной базе данных и вставить данныево вторичную таблицу, используя задание pyspark, и запишите триггер DML, который будет выполнять желаемую операцию DML с вашей первичной таблицей.
(2) Вы можете создать в искре фрейм данных (например, a), который будет копией вашегосуществующую реляционную таблицу и объединить существующий фрейм данных таблицы с текущим фреймом данных (например, b) и создать новый фрейм данных (например, c), который будет иметь последние изменения.Теперь обрежьте таблицу реляционной базы данных и перезагрузите с фреймом последних изменений spark (c).
Это всего лишь обходной путь, а не оптимальное решение для огромного количества данных.