У меня есть две искры rdd: RDD1: RDD [(String, String, Int)] и RDD2: RDD [(String, String, Int)] *
RDD1 является исходными данными, а RDD2 отличается от RDD1
мне нужно создать RDD3, который является RDD1-RDD2
, например:
RDD1: [("one","one",23)],[("one","one",23)],[("two","two",28)],[("one","one",23)]
RDD2: [("one","one",23)],[("two","two",28)]
ожидается
RDD3:[("one","one",23)],[("one","one",23)]
только дубликаты, где количество дубликатов уменьшено на 1
RD # - это сбор только дубликатов, например, если существует 10 транзакций, 1 уникальна, поэтому я должен собрать 9транзакции в RDD3