Pyspark Dataframe - Как отфильтровать записи, совпадающие в другом dataframe? - PullRequest
0 голосов
/ 23 января 2020

У меня есть 2 кадра данных в Spark.

DF1:

c1,c2
a,1
b,2
c,3

DF2:

c1,c2
d,4
e,5
a,6

Я хочу выбрать все записи из DF1, за исключением записей в DF2, где столбцы C1 совпадают (значение 'a' находится во втором кадре данных, поэтому необходимо отфильтровать эту запись из первого кадра данных).

Результат должен быть:

DF3:

c1,c2
b,2
c,3

1 Ответ

1 голос
/ 23 января 2020

Вы можете использовать exceptAll как

df3 = df1.select("C1").exceptAll(df2.select("C1"))

result = df1.join(df3, df1.C1 == df3.C1).drop(df3.C1)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...