У меня есть CSV-файл, который содержит строки с некоторыми похожими идентификаторами. Я нашел хороший подход к этому с помощью dataframe, и я нашел код, делающий это из этого поста.
Пример файла CSv:
id messages
0 11 I am not driving home
1 11 Please pick me up
2 11 I don't have money
3 103 The car already park
4 103 No need for ticket
5 104 I will buy a car
6 104 I will buy a car
Желаемый вывод:
Пример файла CSv:
id messages
011 I am not driving home Please pick me up I don't have money
103 The car already park No need for ticket
104 I will buy a car
Теперь у меня есть код:
aggregation_functions = {'message':'sum'}
df_new = df.groupby(df['id']).aggregate(aggregation_functions)
Теперь, что я получаю с этим кодом:
id messages
011 I am not driving homePlease pick me upI don't have money
103 The car already parkNo need for ticket
104 I will buy a car
Я просто хочу иметь пробел между словами (например, "homePlease"> "home Please") и избегать избыточности, например, иметь два раза I will buy a car
.
Я уже проверил почту 2 , но не смог найти ответ.
Также мне нужно использовать .reindex(columns=df.columns)
после aggregate(aggregation_functions)
Как:
df_new = df.groupby(df['id']).aggregate(aggregation_functions).reindex(columns=df.columns)