У меня есть два кадра данных:
edges =
srcId dstId timestamp
1 4 1346564657
1 2 1345769687
2 4 1345769687
4 1 1345769687
vertices =
id name s_type
1 abc A
2 def B
3 rtf C
4 wrr D
Я хочу получить подмножество vertices
, которое будет включать id
, которые не упомянуты среди srcId
и dstId
в edges
.
Это ожидаемый результат:
sub_vertices =
id name s_type
3 rtf C
Как я могу это сделать?
val sub_vertices = vertices
.join(edges, col("id") =!= col("srcId") && col("id") =!= col("dstId"), "left")
.na.fill(0)
.drop("srcId","dstId", "timestamp")
.dropDuplicates()
Это мой текущий код, но он дает неверный результат.