Эквивалент именованного кортежа в NumPy? - PullRequest
10 голосов
/ 20 сентября 2011

Можно ли создать объект NumPy, который ведет себя очень похоже на collection.namedtuple, в том смысле, что к элементам можно получить доступ следующим образом:

data[1] = 42
data['start date'] = '2011-09-20'  # Slight generalization of what is possible with a namedtuple

Я пытался использовать сложный тип данных:

>>> data = numpy.empty(shape=tuple(), dtype=[('start date', 'S11'), ('n', int)])

Это создает 0-мерное значение с типом именованного кортежа; это почти работает:

>>> data['start date'] = '2011-09-20'
>>> data
array(('2011-09-20', -3241474627884561860), 
      dtype=[('start date', '|S11'), ('n', '<i8')])

Однако доступ к элементу не работает, потому что «массив» является 0-мерным:

>>> data[0] = '2011-09-20'
Traceback (most recent call last):
  File "<ipython-input-19-ed41131430b9>", line 1, in <module>
    data[0] = '2011-09-20'
IndexError: 0-d arrays can't be indexed.

Есть ли способ получить желаемое поведение, описанное выше (назначение элемента через строку и индекс) с помощью объекта NumPy?

Ответы [ 4 ]

3 голосов
/ 20 сентября 2011

Вы можете сделать что-то подобное, используя модуль numpy.rec.Вам нужен класс record из этого модуля, но я не знаю, как напрямую создать экземпляр такого класса.Один неверный способ - сначала создать recarray с одной записью:

>>> a = numpy.recarray(1, names=["start date", "n"], formats=["S11", "i4"])[0]
>>> a[0] = "2011-09-20"
>>> a[1] = 42
>>> a
('2011-09-20', 42)
>>> a["start date"]
'2011-09-20'
>>> a.n
42

Если вы выясните, как создать экземпляр record напрямую, пожалуйста, дайте мне знать.

3 голосов
/ 21 сентября 2011

Это хорошо реализовано "Series" в пакете Pandas .

Например, из учебника :

>>> from pandas import *
>>> import numpy as np
>>> s = Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
>>> s
a    -0.125628696947
b    0.0942011098937
c    -0.71375003803
d    -0.590085433392
e    0.993157363933
>>> s[1]
0.094201109893723267
>>> s['b']
0.094201109893723267

Я только что играл с этим несколько дней, но, похоже, у него есть что предложить.

2 голосов
/ 23 сентября 2011

(отредактировано как EOL, рекомендуется более конкретно ответить на вопрос.)

создать массив 0-dim (я не нашел скалярного конструктора.)

>>> data0 = np.array(('2011-09-20', 0), dtype=[('start date', 'S11'), ('n', int)])
>>> data0.ndim
0

элемент доступа в массиве 0-dim

>>> type(data0[()])
<class 'numpy.void'>
>>> data0[()][0]
b'2011-09-20'
>>> data0[()]['start date']
b'2011-09-20'

>>> #There is also an item() method, which however returns the element as python type
>>> type(data0.item())
<class 'tuple'>

Я думаю, что проще всего думать о структурированных массивах (или повторных массивах) как о списках или массивах кортежей, и индексация работает по имени, которое выбирает столбец, и по целым числам, которое выбирает строки.

>>> tupleli = [('2011-09-2%s' % i, i) for i in range(5)]
>>> tupleli
[('2011-09-20', 0), ('2011-09-21', 1), ('2011-09-22', 2), ('2011-09-23', 3), ('2011-09-24', 4)]
>>> dt = dtype=[('start date', '|S11'), ('n', np.int64)]
>>> dt
[('start date', '|S11'), ('n', <class 'numpy.int64'>)]

массив нулевого измерения, элемент кортеж, т. Е. Одна запись, изменено : не является скалярным элементом, см. В конце

>>> data1 = np.array(tupleli[0], dtype=dt)
>>> data1.shape
()
>>> data1['start date']
array(b'2011-09-20', 
      dtype='|S11')
>>> data1['n']
array(0, dtype=int64)

массив с одним элементом

>>> data2 = np.array([tupleli[0]], dtype=dt)
>>> data2.shape
(1,)
>>> data2[0]
(b'2011-09-20', 0)

1d массив

>>> data3 = np.array(tupleli, dtype=dt)
>>> data3.shape
(5,)
>>> data3[2]
(b'2011-09-22', 2)
>>> data3['start date']
array([b'2011-09-20', b'2011-09-21', b'2011-09-22', b'2011-09-23',
       b'2011-09-24'], 
      dtype='|S11')
>>> data3['n']
array([0, 1, 2, 3, 4], dtype=int64)

прямое индексирование в одну запись, так же, как в примере EOL, что я не знал, что это работает

>>> data3[2][1]
2
>>> data3[2][0]
b'2011-09-22'

>>> data3[2]['n']
2
>>> data3[2]['start date']
b'2011-09-22'

пытается понять пример EOL: скалярный элемент и нульмерный массив различаются

>>> type(data1)
<class 'numpy.ndarray'>
>>> type(data1[()])   #get element out of 0-dim array
<class 'numpy.void'>

>>> data1[0]
Traceback (most recent call last):
  File "<pyshell#98>", line 1, in <module>
    data1[0]
IndexError: 0-d arrays can't be indexed
>>> data1[()][0]
b'2011-09-20'

>>> data1.ndim
0
>>> data1[()].ndim
0

(Примечание: я набрал пример в открытом интерпретаторе python 3.2 случайно, поэтому есть b '...')

2 голосов
/ 20 сентября 2011

Хорошо, я нашел решение, но мне бы хотелось увидеть более элегантное:

data = numpy.empty(shape=1, dtype=[('start date', 'S11'), ('n', int)])[0]

создает одномерный массив с одним элементом и получает элемент. Это позволяет доступным элементам работать со строками и числовыми индексами:

>>> data['start date'] = '2011-09-20'  # Contains a space: more flexible than a namedtuple!
>>> data[1] = 123
>>> data
('2011-09-20', 123)

Было бы неплохо, если бы существовал способ прямого построения data, без необходимости сначала создавать массив с одним элементом и извлекать этот элемент. С

>>> type(data)
<type 'numpy.void'>

Я не уверен, что конструктор NumPy мог бы называться ... (для numpy.void нет строки документации).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...