Почему agg (np.ptp) работает медленнее, чем pandas agg для агрегатов df? - PullRequest
0 голосов
/ 07 февраля 2020

Мне нужно оценить диапазон значений в объекте pandas groupby; в то время как я не нашел функции pandas agg для этого, agg счастливо берет np.ptp. В agg документации упоминается, что np по умолчанию агрегирует массив 2d, но время для np.ptp не меняется, когда я предоставляю axis=0 - и результаты в любом случае одинаковы. Я видел, что gdf.groupby(['col1', 'col2'])['data1', 'data2'].agg(lambda x: max(x) - min(x)) был в 4 раза быстрее, чем gdf.groupby(['col1', 'col2'])['data1', 'data2'].agg(np.ptp). Хотя я не возражаю против использования метода max - min, я хотел бы понять, есть ли какие-либо предостережения. Это на pandas 0.25, python 3.7.3.

...