Как использовать функцию reduKey для получения непарных записей - PullRequest
0 голосов
/ 26 июня 2018

Я хочу объединить 2 записи на основе ключа, но не хочу пропустить и непарные записи. Например, у меня есть парная RDD ниже:

(key=1, (2, created_on))
(key=1, (3, created_on))
(key=2 (5, created_on))

Теперь, когда я использую функцию reduceByKey on для последней 'created_on', она объединяет первые 2 записи и получает одну запись, которая является самой последней. Это правильное поведение.

Однако 3-я запись отсутствует. Как я могу получить непарную запись rdd, чтобы объединить ее в объединенную RDD?

...