У меня есть CSV-файл, содержащий 700 тыс. Строк, и мне нужно создать дополнительный CSV-файл, который бы взял нужные мне данные и отсортировал их по порядку.
Так, например, мой исходный файл CSV имеетданные, которые выглядят примерно так:
Name Code Date Area
Peter 01 01/01/2016 Wales
Peter 02 01/02/2017 England
Peter 34 25/02/2018 Wales
Paul 65 01/12/2015 Scotland
Paul 12 02/12/2015 Scotland
Simon 12 23/08/2016 England
Simon 12 28/09/2016 Wales
Simon 12 27/10/2018 England
Что мне нужно сделать, это создать уникальную строку для человека, но перечислить коды, основанные на том, когда был сделан код (сначала самая старая дата).Я должен отметить, что я отсортировал набор данных в Excel, чтобы перечислить даты в правильном порядке (сначала самые старые), чтобы посмотреть, поможет ли это.
Поэтому вывод, который мне нужен, должен выглядеть следующим образом:
Name Codes
Peter 01,02,34
Paul 65,12
Simon 12,12,12
Коды перечислены по порядку к самой старой дате.
Меня не интересует Район, поскольку он не имеет отношения к окончательному ответу.
Мне удалось получитьимена и коды в соответствующих столбцах, но по какой-то причине коды не перечислены по самой старой дате.
Я пытался найти это, но, похоже, не могу правильно сформулировать его, чтобы получить соответствующий результат.
Кто-нибудь знает, почему последовательность не экспортируется правильно?
Код, который я использую:
df2 = df2.groupby ('Name')['Code'].apply(', '.join).reset_index()
df2
export_csv = df2.to_csv(r'Filelocation.csv', index = None, header = True)
Спасибо