NumPy Recarray строки переменной длины - PullRequest
16 голосов
/ 02 февраля 2012

Можно ли инициализировать пустой массив, который будет содержать строки, не зная заранее длины строк?

В качестве (надуманного) примера:

mydf = np.empty( (numrows,), dtype=[ ('file_name','STRING'), ('file_size_MB',float) ] )

Проблема в том, что я создаю свой массив заранее, чтобы заполнить его информацией, и я не обязательно заранее знаю максимальную длину file_name.

Все мои попытки приводят к усечению строкового поля:

>>> mydf = np.empty( (2,), dtype=[('file_name',str),('file_size_mb',float)] )
>>> mydf['file_name'][0]='foobarasdf.tif'
>>> mydf['file_name'][1]='arghtidlsarbda.jpg'
>>> mydf
array([('', 6.9164002347457e-310), ('', 9.9413127e-317)], 
      dtype=[('file_name', 'S'), ('file_size_mb', '<f8')])
>>> mydf['file_name']
array(['f', 'a'], 
      dtype='|S1')

(Кстати, почему mydf['file_name'] показывает 'f' и 'a', а mydf показывает '' и ''?)

Точно так же, если я инициализирую с типом (скажем) |S10 для file_name, то все усекается на длину 10.

Единственный похожий вопрос, который я смог найти, это этот , но он вычисляет соответствующую длину строки a priori и, следовательно, не совсем совпадает с моим (поскольку я ничего не знаю заранее).

Есть ли какая-либо альтернатива, кроме инициализации file_name с (например) |S9999999999999 (то есть с каким-то нелепым верхним пределом)?

1 Ответ

25 голосов
/ 02 февраля 2012

Вместо использования STRING dtype всегда можно использовать object в качестве dtype.Это позволит любому объекту быть назначенным элементу массива, включая строки переменной длины Python.Например:

>>> import numpy as np
>>> mydf = np.empty( (2,), dtype=[('file_name',object),('file_size_mb',float)] )
>>> mydf['file_name'][0]='foobarasdf.tif'
>>> mydf['file_name'][1]='arghtidlsarbda.jpg'
>>> mydf
array([('foobarasdf.tif', 0.0), ('arghtidlsarbda.jpg', 0.0)], 
      dtype=[('file_name', '|O8'), ('file_size_mb', '<f8')])

Это противоречит духу концепции массива иметь элементы переменной длины, но это настолько близко, насколько можно.Идея массива заключается в том, что элементы хранятся в памяти по четко определенным и регулярно расположенным адресам памяти, что запрещает элементы переменной длины.Сохраняя указатели на строку в массиве, можно обойти это ограничение.(Это в основном то, что делает приведенный выше пример.)

...