У меня есть 2 кадра данных.
df1:
|AusID|ProjectId|
+-----+----------
|529 |20034 |
|973 |20035 |
|521 |20034 |
|543 |20035 |
df2:
|AusID|ProjectId|
+-----+----------
|529 |20124 |
|876 |20123 |
|521 |20234 |
|982 |21235 |
Оба кадра данных имеют несколько общих AusID , но я хочу удалить дубликаты только из df2 , где AusID одинаков, без изменения df1 . результирующий df2 должен быть:
|AusID|ProjectId|
+-----+----------
|876 |20123 |
|982 |21235 |
Я попробовал следующий подход, назначив теги, но он не сработал:
val sn = df1.withColumn("label", lit("df1"))
val pd = df2.withColumn("label", lit("df2"))
val u = sn.union(pd)
val du = u.dropDuplicates("AusID")
val f = du.filter(col("label") === "df1")
Было бы замечательно, если бы кто-нибудь дал намек.