Как получить данные гистограммы из массива 2D NumPy? - PullRequest
1 голос
/ 04 августа 2020

Может ли numpy.histogram() обработать массив 2D NumPy? Кажется, я не могу заставить его работать? В приведенном ниже примере я ожидаю, что функция numpy.histogram() вернет 3x2, где 2 обозначает кортеж с 2 1D numpy массив размером 20 содержит необходимые данные count и bin соответственно.

Пример:

>>> import numpy as np
>>> from numpy.random import default_rng
>>> from scipy.stats import norm
>>> rg = default_rng()
>>> a = norm.rvs( size=(3, 100), random_state=rg )
>>> np.histogram( a, bins=20 )
(array([ 2,  2,  4,  6, 10, 11, 15, 19, 37, 26, 25, 28, 27, 29, 21, 22,  5,
        5,  3,  3]), array([-2.736423  , -2.47271089, -2.20899879, -1.94528668, -1.68157457,
       -1.41786247, -1.15415036, -0.89043825, -0.62672615, -0.36301404,
       -0.09930193,  0.16441017,  0.42812228,  0.69183439,  0.95554649,
        1.2192586 ,  1.48297071,  1.74668281,  2.01039492,  2.27410703,
        2.53781913]))
>>> np.histogram( a.T, bins=20 )
(array([ 2,  2,  4,  6, 10, 11, 15, 19, 37, 26, 25, 28, 27, 29, 21, 22,  5,
        5,  3,  3]), array([-2.736423  , -2.47271089, -2.20899879, -1.94528668, -1.68157457,
       -1.41786247, -1.15415036, -0.89043825, -0.62672615, -0.36301404,
       -0.09930193,  0.16441017,  0.42812228,  0.69183439,  0.95554649,
        1.2192586 ,  1.48297071,  1.74668281,  2.01039492,  2.27410703,
        2.53781913]))

Изменить:

Я пробую histrogramdd() в соответствии с предложением @DavidHoffman. Результат H выглядит неверным. Я ожидаю 3 строки результатов, но получил 6 строк. edges выглядит правильно. Что я делаю неправильно?

>>> bins = np.linspace(np.array([-3,-3,-3]),  np.array([3,3,3]), num=7, axis=1 )
>>> bins
array([[-3., -2., -1.,  0.,  1.,  2.,  3.],
       [-3., -2., -1.,  0.,  1.,  2.,  3.],
       [-3., -2., -1.,  0.,  1.,  2.,  3.]])
>>> H, edges = np.histogramdd(a.T, bins=bins)
>>> H
array([[[0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [0., 0., 2., 0., 0., 0.],
        [0., 1., 0., 0., 1., 0.],
        [0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 1., 0.],
        [0., 2., 0., 1., 1., 0.],
        [0., 1., 1., 1., 0., 0.],
        [0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 2., 0., 0.],
        [0., 1., 4., 7., 2., 0.],
        [1., 3., 5., 6., 4., 1.],
        [2., 1., 0., 2., 0., 0.],
        [0., 0., 0., 0., 0., 0.]],

       [[0., 1., 1., 1., 0., 0.],
        [0., 0., 1., 3., 1., 0.],
        [1., 2., 2., 3., 1., 0.],
        [1., 2., 4., 1., 3., 0.],
        [0., 2., 0., 0., 0., 0.],
        [0., 1., 0., 0., 1., 0.]],

       [[0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [0., 0., 5., 2., 1., 0.],
        [0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0.]]])
>>> edges
[array([-3., -2., -1.,  0.,  1.,  2.,  3.]), array([-3., -2., -1.,  0.,  1.,  2.,  3.]), array([-3., -2., -1.,  0.,  1.,  2.,  3.])]
>>>

Результаты должны быть аналогичны результатам для подхода for-l oop (упомянутого @MateenUlhaq).

>>> bins = np.linspace( -3, 3, num=7 )
>>> bins
array([-3., -2., -1.,  0.,  1.,  2.,  3.])
>>> for i in a:
    np.histogram( i, bins=bins )

    
(array([ 5, 10, 41, 32, 10,  2]), array([-3., -2., -1.,  0.,  1.,  2.,  3.]))
(array([ 3, 10, 37, 37, 11,  2]), array([-3., -2., -1.,  0.,  1.,  2.,  3.]))
(array([ 5, 17, 26, 33, 18,  1]), array([-3., -2., -1.,  0.,  1.,  2.,  3.]))

1 Ответ

0 голосов
/ 04 августа 2020

Возможный способ избежать for l oop состоит в определении оболочки для np.histogram():

def wrapper(arr):
    h, _ = np.histogram(arr, bins=np.linspace(-3, 3, num=7))
    return h

и передаче этой функции оболочки в np.apply_along_axis():

h = np.apply_along_axis(wrapper, 1, a)

Демо

In [50]: for row in a:
    ...:     h_row, _ = np.histogram(row, bins=np.linspace(-3, 3, num=7))
    ...:     print(h_row)
[ 1 17 38 28 11  4]
[ 1 16 32 35 15  1]
[ 2 11 37 33 16  1]

In [51]: np.apply_along_axis(wrapper, 1, a)
Out[51]: 
array([[ 1, 17, 38, 28, 11,  4],
       [ 1, 16, 32, 35, 15,  1],
       [ 2, 11, 37, 33, 16,  1]], dtype=int64)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...