У меня есть dataframe
(названный: basic_df
) со следующими свойствами и характеристиками:
- У df есть ~ 900K строк и 25 столбцов
- Каждые несколько минут (~ 9-10 минут) самые старые строки (~ 5000 строк) удаляются и новые строки (~ 5000 строк) вставляются в этот
dataframe
(basic_df
) - Из этого
dataframe
(basic_df
) Я запускаю процесс, который создает функции. некоторые из этих функций содержат mean/median/std
из строк basic_df
Существует ли эффективный способ вычисления mean/median/std
без обхода всех строк. (то есть, принимая во внимание удаленные и новые строки и эффективно вычисляя mean/median/std
)
Кажется, тяжело go снова и снова по ~ 900К строкам, в то время как данные <1% новые. </p>