есть функция для удаления данных из дельта-таблицы:
deltaTable = DeltaTable.forPath(spark, "/data/events/")
deltaTable.delete(col("date") < "2017-01-01")
Но есть ли еще способ как-то удалить дубликаты? Подобно deltaTable.dropDuplicates () ...
Я не хочу читать всю таблицу как фрейм данных, отбрасывать дубликаты и снова перезаписывать их в хранилище