У меня есть датафрейм Pandas 0.19.2 для Python 3.6x, как показано ниже. Я хочу drop_duplicates()
с тем же Id
на основе условной логики.
import pandas as pd
import numpy as np
np.random.seed(1)
df = pd.DataFrame({'Id':[1,2,3,4,3,2,6,7,1,8],
'Name':['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K'],
'Size':np.random.rand(10),
'Age':[19, 25, 22, 31, 43, 23, 44, 20, 51, 31]})
Каков наиболее эффективный (если возможно, векторизованный) способ достижения этого на основе логики, которую я опишу ниже?
1) Перед удалением дубликатов суммируйте Size
дубликатов Id
записей.
2) Удалите дубликаты для тех же Id
записей, сохраняя ту, которая имеет больший Age
.
Желаемый результат будет:
Age Id Name Size
1 25 2 B 0.812662
3 31 4 D 0.302333
4 43 3 E 0.146870
6 44 6 G 0.186260
7 20 7 H 0.345561
8 51 1 I 0.813790
9 31 8 K 0.538817