Вот исходный набор данных
id firstname lastname email update date
A1 wendy smith ws@mail.com 2018-01-02
A1 wendy smith smith@mail.com 2019-02-03
A2 harry lynn lynn@mail.com 2016-04-03
A2 harry harylynn@mail.com 2019-03-12
A3 tinna dickey tinna@mail.com 2016-04-03
A3 tinna dickey 776-3384-333 2019-03-12
Мой план состоит в том, чтобы группировать строки с одинаковым идентификатором, если некоторые столбцы с одинаковым идентификатором содержат разные значения, сохраните последнее значение. Поэтому результат должен выглядеть следующим образом:
id firstname lastname email update date
A1 wendy smith smith@mail.com 2019-02-03
A2 harry lynn harylynn@mail.com 2019-03-12
A3 tinna dickey tinna@mail.com 2019-03-12
В настоящее время я пытаюсь использовать pandas groupby для группировки ячеек с одинаковым значением и сохранения разных значений в одной ячейке, разделенных символом «,» для последующего использования (удалить ранееданные, сделать одну ячейку одной данных). Но я думаю, что то, что я делаю, не правильно ...
df=df.groupby(['id']).agg({'first_name': lambda x:','.join(set(x))})
Что, если последнее значение является неправильным, нужно ли сохранять значение конфликта в новом столбце для последующей очистки?
Любая помощь будет оценена!