Как сохранить дубликаты искры rdd в другой rdd - PullRequest
0 голосов
/ 09 октября 2019

У меня есть две искры rdd: RDD1: RDD [(String, String, Int)] и RDD2: RDD [(String, String, Int)] *

RDD1 является исходными данными, а RDD2 отличается от RDD1

мне нужно создать RDD3, который является RDD1-RDD2

, например:

RDD1:  [("one","one",23)],[("one","one",23)],[("two","two",28)],[("one","one",23)]
RDD2:  [("one","one",23)],[("two","two",28)]

ожидается

RDD3:[("one","one",23)],[("one","one",23)] 

только дубликаты, где количество дубликатов уменьшено на 1

RD # - это сбор только дубликатов, например, если существует 10 транзакций, 1 уникальна, поэтому я должен собрать 9транзакции в RDD3

...