Вычислить процентили, если у нас есть данные функции плотности вероятности в виде x и y - PullRequest
3 голосов
/ 17 июня 2020

У меня есть данные, извлеченные из графика в формате PDF, где x представляет время инкубации, а y - плотность в файле CSV. Я хотел бы рассчитать процентили, например 95%. Я немного запутался, следует ли мне рассчитывать процентиль, используя только значения x, т.е. используя np.precentile(x, 0.95)?

данные на графике: enter image description here

Ответы [ 2 ]

2 голосов
/ 18 июня 2020

Вот код, который использует np.trapz (как предложено @ p js). Мы берем массивы x и y, предполагая, что это PDF, поэтому сначала мы нормализуем его до 1, а затем начинаем поиск в обратном направлении, пока не достигнем отметки 0,95. Я придумал какую-то многопиковую функцию

import numpy as np
import matplotlib.pyplot as plt

N = 1000

x = np.linspace(0.0, 6.0*np.pi, N)
y = np.sin(x/2.0)/x # construct some multi-peak function
y[0] = y[1]
y = np.abs(y)

plt.plot(x, y, 'r.')
plt.show()

# normalization
norm = np.trapz(y, x)
print(norm)

y = y/norm
print(np.trapz(y, x)) # after normalization

# now compute integral cutting right limit down by one
# with each iteration, stop as soon as we hit 0.95
for k in range(0, N):
    if k == 0:
        xx = x
        yy = y
    else:
        xx = x[0:-k]
        yy = y[0:-k]
    v = np.trapz(yy, xx)
    print(f"Integral {k} from {xx[0]} to {xx[-1]} is equal to {v}")
    if v <= 0.95:
        break
1 голос
/ 23 июня 2020

Я тестировал как метод @Severin Pappadeux, так и np.percentile и bith, дали мне тот же результат для 95 процентиля

Вот код @Severin Pappadeux, но с данными, которые я использовал:

import numpy as np
import matplotlib.pyplot as plt


x = [ 5.  ,  5.55,  6.1 ,  6.65,  7.2 ,  7.75,  8.3 ,  8.85,  9.4 ,
      9.95, 10.5 , 11.05, 11.6 , 12.15, 12.7 , 13.25, 13.8 , 14.35,
      14.9 , 15.45, 16.  ]
y = [0.03234577, 0.03401444, 0.03559847, 0.03719304, 0.03890566,
     0.04084201, 0.04309067, 0.04570878, 0.04871024, 0.05205822,
     0.05566298, 0.05938525, 0.06304516, 0.06643575, 0.06933978,
     0.07154828, 0.07287886, 0.07319211, 0.0724044 , 0.0704957 ,
     0.0675117 ] 

N = len(x)

y[0] = y[1]
y = np.abs(y)

plt.plot(x, y, 'r.')
plt.show()

# normalization
norm = np.trapz(y, x)
print(norm)

y = y/norm
print(np.trapz(y, x)) # after normalization

# now compute integral cutting right limit down by one
# with each iteration, stop as soon as we hit 0.95
for k in range(0, N):
    if k == 0:
       xx = x
       yy = y
    else:
       xx = x[0:-k]
       yy = y[0:-k]
     v = np.trapz(yy, xx)
print(f"Integral {k} from {xx[0]} to {xx[-1]} is equal to {v}")

    if v <= 0.95:
       break

# Outputs = 
# 0.6057000785
# 1.0 
# Integral 0 from 5.0 to 16.0 is equal to 1.0
# Integral 1 from 5.0 to 15.45 is equal to 0.9373418687777172

и когда я использовал np.percentile () на x, как предлагает @Zeek:

np.percentile(x, 95)
# Output= 15.45 

Итак, оба метода дали мне 15.45 как 95 процентиль из x

...