У меня есть два почти идентичных фрейма данных Pyspark: одинаковое количество строк и row_id, одна и та же схема, но разные значения в некоторых столбцах для каждой строки.
Я хочу определить, что это за столбцы для каждой строки.
Пример:
Фрейм данных A
id fname lname email
1 Michael Jackson mj@yahoo.com
2 Roger Moore rm@rocketmail.com
3 Angela Merkel am@dw.de
Фрейм данных B
id fname lname email
1 Michael Jordan mj@yahoo.com
2 Gordon Moore rm@rocketmail.com
3 Angela Markle am@dw.com
Ожидаемый результат - список словарей:
[
{"1": ["lname"]},
{"2": ["fname"] },
{"3": ["lname", "email"] }
]