Question

У меня не очень большой массив данных (где-то в диапазоне 2000x10000 с точки зрения формы).

Я пытаюсь groupby столбцы и усреднить первые N ненулевых записей:

например

def my_part_of_interest(v,N=42):
   valid=v[~np.isnan(v)]
   return np.mean(valid.values[0:N])

mydf.groupby('key').agg(my_part_of_interest)

Теперь это занимает много времени (дюжина минут), когда вместо .agg(np.nanmean) вместо нескольких секунд.

как заставить его работать быстрее

iDrwish · Answer 1 · 05 октября 2018

Некоторые моменты, которые следует учитывать:

Удаление записей nan для всего df с помощью одной операции быстрее, чем для кусков сгруппированных наборов данных mydf.dropna(subset=['v'], inplace=True)
Используйте.голова к нарезке mydf.groupby('key').apply(lambda x: x.head(42).agg('mean')

Я думаю, что все вместе может немного оптимизировать вещи, и они более идиоматичны для панд.

повысить эффективность группового панды с помощью пользовательской функции агрегирования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.