У меня есть 2 кадра данных pyspark, как показано в прикрепленном файле.Ожидаемый_дф и фактический_дф
В своем модульном тесте я пытаюсь проверить, равны ли оба или нет.
, для которого мой код
expected = map(lambda row: row.asDict(), expected_df.collect())
actual = map(lambda row: row.asDict(), actaual_df.collect())
assert expected = actual
Так как оба dfs одинаковы, но порядок строк различен, поэтому здесь assert терпит неудачу.Какой лучший способ сравнить такие DFS.