Как получить данные в гистограмме - PullRequest
18 голосов
/ 16 февраля 2010

Я хочу получить список данных, содержащихся в корзине гистограммы. Я использую NumPy и Matplotlib. Я знаю, как пройти данные и проверить края корзины. Однако я хочу сделать это для двумерной гистограммы, и код для этого довольно уродлив. У numpy есть какие-нибудь конструкции, чтобы сделать это проще?

Для одномерного случая я могу использовать searchsorted (). Но логика не намного лучше, и я не хочу делать бинарный поиск по каждой точке данных, когда мне это не нужно.

Большая часть неприятной логики связана с пограничными областями бункера. Все области имеют такие границы: [левый край, правый край). За исключением последнего бина, который имеет область, подобную этой: [левый край, правый край].

Вот пример кода для случая 1D:

import numpy as np

data = [0, 0.5, 1.5, 1.5, 1.5, 2.5, 2.5, 2.5, 3]

hist, edges = np.histogram(data, bins=3)

print 'data =', data
print 'histogram =', hist
print 'edges =', edges

getbin = 2  #0, 1, or 2

print '---'
print 'alg 1:'

#for i in range(len(data)):
for d in data:
    if d >= edges[getbin]:
        if (getbin == len(edges)-2) or d < edges[getbin+1]:
            print 'found:', d
        #end if
    #end if
#end for

print '---'
print 'alg 2:'

for d in data:
    val = np.searchsorted(edges, d, side='right')-1
    if val == getbin or val == len(edges)-1:
        print 'found:', d
    #end if
#end for

Вот пример кода для 2D-случая:

import numpy as np

xdata = [0, 1.5, 1.5, 2.5, 2.5, 2.5, \
         0.5, 0.5, 0.5, 0.5, 1.5, 1.5, 1.5, 1.5, 1.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, \
         0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 3]
ydata = [0, 5,5, 5, 5, 5, \
         15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, \
         25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 30]

xbins = 3
ybins = 3
hist2d, xedges, yedges = np.histogram2d(xdata, ydata, bins=(xbins, ybins))

print 'data2d =', zip(xdata, ydata)
print 'hist2d ='
print hist2d
print 'xedges =', xedges
print 'yedges =', yedges

getbin2d = 5  #0 through 8

print 'find data in bin #', getbin2d

xedge_i = getbin2d % xbins
yedge_i = int(getbin2d / xbins) #IMPORTANT: this is xbins

for x, y in zip(xdata, ydata):
    # x and y left edges
    if x >= xedges[xedge_i] and y >= yedges[yedge_i]:
        #x right edge
        if xedge_i == xbins-1 or x < xedges[xedge_i + 1]:
            #y right edge
            if yedge_i == ybins-1 or y < yedges[yedge_i + 1]:
                print 'found:', x, y
            #end if
        #end if
    #end if
#end for

Есть ли более чистый / более эффективный способ сделать это? Кажется, у numpy было бы что-то для этого.

Ответы [ 3 ]

24 голосов
/ 17 февраля 2010

digitize от ядра NumPy даст вам индекс бина, которому принадлежит каждое значение в вашей гистограмме:

import numpy as NP
A = NP.random.randint(0, 10, 100)

bins = NP.array([0., 20., 40., 60., 80., 100.])

# d is an index array holding the bin id for each point in A
d = NP.digitize(A, bins)     
4 голосов
/ 17 февраля 2010

как насчет чего-то вроде:

In [1]: data = numpy.array([0, 0.5, 1.5, 1.5, 1.5, 2.5, 2.5, 2.5, 3])
In [2]: hist, edges = numpy.histogram(data, bins=3)
In [3]: for l, r in zip(edges[:-1], edges[1:]):
    print(data[(data > l) & (data < r)])
   ....:     
   ....:     
[ 0.5]
[ 1.5  1.5  1.5]
[ 2.5  2.5  2.5]
In [4]: 

с небольшим количеством кода для обработки крайних случаев.

0 голосов
/ 17 февраля 2010

pyplot.hist в matplotlib создает гистограмму (но также выводит ее на экран, чего вы не хотите). Только для корзин вы можете использовать numpy.histogram, как указано в другом ответе.

Здесь - пример сравнения pyploy.hist и numpy.histogram.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...