Сохранение объекта KDTree в Python? - PullRequest
8 голосов
/ 25 апреля 2011

Я использую реализацию Scipy KDTree для чтения большого файла размером 300 МБ.Теперь, есть ли способ, которым я могу просто сохранить структуру данных на диск и загрузить ее снова, или я застрял в чтении необработанных точек из файла и построении структуры данных каждый раз, когда я запускаю свою программу?Я создаю KDTree следующим образом:

def buildKDTree(self):
        self.kdpoints = numpy.fromfile("All", sep=' ')
        self.kdpoints.shape = self.kdpoints.size / self.NDIM, NDIM
        self.kdtree = KDTree(self.kdpoints, leafsize = self.kdpoints.shape[0]+1)
        print "Preparing KDTree... Ready!"

Есть предложения, пожалуйста?

1 Ответ

10 голосов
/ 25 апреля 2011

KDtree использует вложенные классы для определения типов узлов (innernode, leafnode). Pickle работает только с определениями классов уровня модуля, поэтому вложенный класс отключает его:

import cPickle

class Foo(object):
    class Bar(object):
        pass

obj = Foo.Bar()
print obj.__class__
cPickle.dumps(obj)

<class '__main__.Bar'>
cPickle.PicklingError: Can't pickle <class '__main__.Bar'>: attribute lookup __main__.Bar failed

Тем не менее, существует (хакерский) обходной путь, который монтирует патчи определений классов в scipy.spatial.kdtree в области видимости модуля, чтобы сборщик мог их найти. Если весь ваш код, который читает и пишет засоленные объекты KDtree, устанавливает эти исправления, этот хак должен работать нормально:

import cPickle
import numpy
from scipy.spatial import kdtree

# patch module-level attribute to enable pickle to work
kdtree.node = kdtree.KDTree.node
kdtree.leafnode = kdtree.KDTree.leafnode
kdtree.innernode = kdtree.KDTree.innernode

x, y = numpy.mgrid[0:5, 2:8]
t1 = kdtree.KDTree(zip(x.ravel(), y.ravel()))
r1 = t1.query([3.4, 4.1])
raw = cPickle.dumps(t1)

# read in the pickled tree
t2 = cPickle.loads(raw)
r2 = t2.query([3.4, 4.1])
print t1.tree.__class__
print repr(raw)[:70]
print t1.data[r1[1]], t2.data[r2[1]]

Выход:

<class 'scipy.spatial.kdtree.innernode'>
"ccopy_reg\n_reconstructor\np1\n(cscipy.spatial.kdtree\nKDTree\np2\nc_
[3 4] [3 4]
...