Spark - как объединить 2 кадра данных по ключу и устранить дублирование с помощью созданного времени - PullRequest
0 голосов
/ 04 ноября 2019

Я новичок в Spark и mapreduce. Я хочу попросить о помощи, есть ли какой-нибудь элегантный способ сделать, как показано ниже. Так как у меня есть фрейм данных A. Затем я хочу иметь фрейм данных R, записи которого объединяются определенными ключами между фреймом данных A и новым фреймом данных B с условием типа A's record.createdTime

1 Ответ

0 голосов
/ 04 ноября 2019

Вы можете использовать join в DataFrame для достижения желаемого результата

В Python

dfA.join(dfB, (dfA.key == dfB.key) & (dfA.createdTime < dfB.createdTime) ).show()

Вы также можете следовать старый вопрос

...