У меня есть два кадра данных (более 1 млн записей). Только ~ 10% строк отличаются. Я знаю, как найти дельту:
df1.subtract(df2)
Но я также хотел бы знать, какие записи являются новыми и что изменилось.
Я знаю, что могу сделать это, используя Hive Context, когда у меня есть дельта, но, может быть, есть простой способ сделать это на основе некоторых функций pyspark?
Спасибо заранее.