У меня есть кадр данных, имеющий около 16 000 строк, и я выполняю максимальное агрегирование одного столбца и группирую его по другому.
df.groupby(['col1']).agg({'col2': 'max'}).reset_index()
Требуется 1,97 с. Я хотел бы улучшить его производительность. Запрос вы предлагаете в строках использования numpy или векторизации.
Тип данных: оба столбца являются объектами.
%%timeit
df.groupby(['col1']).agg({'col2': 'max'}).reset_index()
1.97 s ± 42 ms per loop (mean ± std. dev. of 7 runs, 1 loop each