У меня не очень большой массив данных (где-то в диапазоне 2000x10000
с точки зрения формы).
Я пытаюсь groupby
столбцы и усреднить первые N ненулевых записей:
например
def my_part_of_interest(v,N=42):
valid=v[~np.isnan(v)]
return np.mean(valid.values[0:N])
mydf.groupby('key').agg(my_part_of_interest)
Теперь это занимает много времени (дюжина минут), когда вместо .agg(np.nanmean)
вместо нескольких секунд.
как заставить его работать быстрее