Итак, команда для добавления фрейма данных spark непосредственно в таблицу кустов:
df.write().mode("append").saveAsTable("tableName")
Но обеспечивает ли режим добавления, что он позволит избежать дублирования строк?Например:
- , если строка A находится в таблице кустов, а также в кадре данных искры
- добавление кадра данных искры в таблицу кустов приведет к двум строкам A?
Есть ли способ, чтобы избежать дублирования при добавлении?
Редактировать: Есть два пути:
- один упомянутый shu , загрузить таблицу кустов в качестве искрового фрейма данных, объединить двакадры данных, отбрасывать дубликаты и записывать обратно в таблицу кустов с режимом «перезапись».
- секунда, загрузка таблицы кустов в временную таблицу, добавление кадра данных во временную таблицу, получение отдельных строк и перезапись временной таблицы обратно в таблицу кустов.
То, что я ищу, этоЕсть ли способ сделать все это напрямую, без промежуточного шага записи данных во временную таблицу или фрейм данных?
Спасибо.