Удалить дубликаты только из одной искры фрейма данных - PullRequest
0 голосов
/ 27 июня 2018

У меня есть 2 кадра данных.

df1:

|AusID|ProjectId|
+-----+----------
|529  |20034    |
|973  |20035    |
|521  |20034    |
|543  |20035    |

df2:

|AusID|ProjectId|
+-----+----------
|529  |20124    |
|876  |20123    |
|521  |20234    |
|982  |21235    |

Оба кадра данных имеют несколько общих AusID , но я хочу удалить дубликаты только из df2 , где AusID одинаков, без изменения df1 . результирующий df2 должен быть:

|AusID|ProjectId|
+-----+----------
|876  |20123    |
|982  |21235    |

Я попробовал следующий подход, назначив теги, но он не сработал:

  val sn = df1.withColumn("label", lit("df1"))
    val pd = df2.withColumn("label", lit("df2"))

    val u = sn.union(pd)
    val du = u.dropDuplicates("AusID")
    val f = du.filter(col("label") === "df1")

Было бы замечательно, если бы кто-нибудь дал намек.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...