Dask массив from_npy_stack пропускает информационный файл - PullRequest
0 голосов
/ 31 мая 2018

Действие

Попытка создать массив Dask из стека .npy файлов, не записанных Dask.

Проблема

Dask from_npy_stack() ожидает файл info, который обычно создается функцией to_npy_stack() при создании стека .npy с Dask.

Попытки

Я нашел этот PR (https://github.com/dask/dask/pull/686) с описанием того, как создается информационный файл

def to_npy_info(dirname, dtype, chunks, axis):
    with open(os.path.join(dirname, 'info'), 'wb') as f:
        pickle.dump({'chunks': chunks, 'dtype': x.dtype, 'axis': axis}, f)

Вопрос

Как мне поступитьзагрузка .npy стеков, созданных вне Dask?

Пример

from pathlib import Path
import numpy as np
import dask.array as da

data_dir = Path('/home/tom/data/')

for i in range(3):
    data = np.zeros((2,2))
    np.save(data_dir.joinpath('{}.npy'.format(i)), data)

data = da.from_npy_stack('/home/tom/data')

В результате возникает следующая ошибка:

---------------------------------------------------------------------------
IOError                                   Traceback (most recent call last)
<ipython-input-94-54315c368240> in <module>()
      9     np.save(data_dir.joinpath('{}.npy'.format(i)), data)
     10 
---> 11 data = da.from_npy_stack('/home/tom/data/')

/home/tom/vue/env/local/lib/python2.7/site-packages/dask/array/core.pyc in from_npy_stack(dirname, mmap_mode)
   3722         Read data in memory map mode
   3723     """
-> 3724     with open(os.path.join(dirname, 'info'), 'rb') as f:
   3725         info = pickle.load(f)
   3726 

IOError: [Errno 2] No such file or directory: '/home/tom/data/info'

1 Ответ

0 голосов
/ 31 мая 2018

Функция from_npy_stack коротка и проста.Согласитесь, что, вероятно, следует принимать метаданные в качестве необязательного аргумента для таких случаев, как ваш, но вы можете просто использовать строки кода после загрузки файла "info", предполагая, что у вас есть правильные значения.Некоторые из этих значений, например dtype и форму каждого массива для создания chunks, можно предположительно получить, посмотрев на первый из файлов данных

name = 'from-npy-stack-%s' % dirname
keys = list(product([name], *[range(len(c)) for c in chunks]))
values = [(np.load, os.path.join(dirname, '%d.npy' % i), mmap_mode)
          for i in range(len(chunks[axis]))]
dsk = dict(zip(keys, values))

out = Array(dsk, name, chunks, dtype)

Также обратите внимание, что мысоставляя имена файлов здесь, но вы можете получить их, выполнив listdir или glob.

...