Я работаю в Microsoft Azure Databricks с двумя фреймами данных.
У меня уже есть Dataframe, который содержит мои "Masterdata". Я получаю ежедневно также полный пакет данных со «всеми» записями. Но в пределах этого Dataframe могут быть изменения в записях, и записи также могут быть удалены и добавлены.
Какой самый лучший и, возможно, самый простой способ получить эту дельту или набор данных между двумя Датафреймами?
UPDATE
DataFrame 1 -> который я получаю каждый день
customer score
MERCEDES 1.1
CHRYSLER 3.0
DataFrame 2 -> мой мастер
customer score
BMW 1.1
MERCEDES 1.3
Так что мне нужно получить:
customer score
BMW 1.1 -> cause was deleted in receiving data
MERCEDES 1.3 -> cause was value changed
CHRYSLER 3.0 -> cause was added new