Question

При использовании numpy.darray я столкнулся с проблемой переполнения памяти из-за размера данных, например:

Предположим, у меня есть источник данных массива float64 100000000 * 100000000 * 100000000, когда я хочучитать данные и обрабатывать их в памяти с помощью np.Это вызовет ошибку Memoray Error, поскольку она обрабатывает всю память для хранения такого большого массива в памяти.

Тогда, возможно, использование дискового файла / базы данных в качестве буфера для хранения массива является решением, когда я хочуиспользовать данные, он будет получать необходимые данные из файла / базы данных, в противном случае это просто объект Python, занимающий мало памяти.

Возможно ли написать такой адаптер?

Спасибо.

Rgs, KC

Peter Prettenhofer · Answer 1 · 29 сентября 2010

Посмотрите на pytables или numpy.memmap , возможно, они соответствуют вашим потребностям.

лучший, Питер

baklarz2048 · Answer 2 · 29 сентября 2010

Если у вас есть матрицы с большим количеством нулей, используйте scipy.sparse.csc_matrix. Можно написать все, например. Вы можете переопределить класс массива numarray.

используя файл / db в качестве буфера для очень большого массива, чтобы получить данные, предотвращающие переполнение?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

используя файл / db в качестве буфера для очень большого массива, чтобы получить данные, предотвращающие переполнение?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов