Мне нужно объединить дублированные строки.
Некоторые столбцы, которые я должен суммировать ( ДЕНЬГИ ), другие я должен поддерживать ( ВОЗРАСТ ).
DataFrame I Have:
NAME AGE MONEY
0 ANA 20 2.5
1 BOB 17 2.0
2 JOHN 23 1.0
3 JOHN 23 2.0
4 NEYMAR 25 1000.0
5 NEYMAR 25 2000.0
6 NEYMAR NaN 3000.0
DataFrame I Need:
NAME AGE MONEY
0 ANA 20 2.5
1 BOB 17 2.0
2 JOHN 23 3.0
3 NEYMAR 25 6000.0
У меня более 20 000 линий, и скорость важна.
Я использую дублированную функцию плюс для индекса, строку в df.iterrows () .
Это занимает много времени.
Не могли бы вы помочь мне найти быстрый метод с использованием панд или numpy ...?
Спасибо!
Код для тестирования:
import pandas as pd
people = pd.DataFrame({
'NAME': ['ANA', 'BOB', 'JOHN', 'JOHN', 'NEYMAR', 'NEYMAR', 'NEYMAR'] ,
'AGE': [20, 17, 23, 23, 25, 25, 25],
'MONEY': [2.5, 2.00, 1.0, 2.0, 1000,2000,3000],
})
print(people)
print()
people_unique = pd.DataFrame({
'NAME': ['ANA', 'BOB', 'JOHN', 'NEYMAR'] ,
'AGE': [20, 17, 23, 25],
'MONEY': [2.5, 2.00, 3.0, 6000],
})
print(people_unique)