Как рассчитать среднее значение, медиану и стандартное отклонение для частично обновленной информации? - PullRequest
1 голос
/ 26 апреля 2020

У меня есть dataframe (названный: basic_df) со следующими свойствами и характеристиками:

  1. У df есть ~ 900K строк и 25 столбцов
  2. Каждые несколько минут (~ 9-10 минут) самые старые строки (~ 5000 строк) удаляются и новые строки (~ 5000 строк) вставляются в этот dataframe (basic_df)
  3. Из этого dataframe (basic_df) Я запускаю процесс, который создает функции. некоторые из этих функций содержат mean/median/std из строк basic_df

Существует ли эффективный способ вычисления mean/median/std без обхода всех строк. (то есть, принимая во внимание удаленные и новые строки и эффективно вычисляя mean/median/std)

Кажется, тяжело go снова и снова по ~ 900К строкам, в то время как данные <1% новые. </p>

...