В настоящее время я пытаюсь сравнить два фрейма данных вместе, чтобы увидеть, как поля не совпадают в pyspark. Мне удалось написать это вручную, но я хочу иметь возможность передать список полей, чтобы убедиться, что кадры не совпадают на полях. Фреймы данных идентичны.
Код, который я имею до сих пор:
key_cols = ['team_link_uuid', 'team_sat_hash']
temp_team_sat = orig.select(*key_cols)
temp_team_sat_incremental = delta.select(*key_cols)
hash_field = ['team_sat_hash']
test_update_list = temp_team_sat.join(temp_team_sat_incremental, (temp_team_sat.team_link_uuid == temp_team_sat_incremental.team_link_uuid) & (temp_team_sat.team_sat_hash != temp_team_sat_incremental.team_sat_hash))
Но теперь мне нужно иметь возможность взять мой список (hash_field) и убедиться, что одно или несколько полей не равны друг другу.