Question

Я пытаюсь использовать функцию multiprocessing Pool.map(), чтобы разделить работу одновременно. Когда я использую следующий код, он отлично работает:

import multiprocessing

def f(x):
    return x*x

def go():
    pool = multiprocessing.Pool(processes=4)        
    print pool.map(f, range(10))


if __name__== '__main__' :
    go()

Однако, когда я использую его в более объектно-ориентированном подходе, он не работает. Это сообщение об ошибке:

PicklingError: Can't pickle <type 'instancemethod'>: attribute lookup
__builtin__.instancemethod failed

Это происходит, когда моей основной программой является следующее:

import someClass

if __name__== '__main__' :
    sc = someClass.someClass()
    sc.go()

и мой класс someClass следующий:

import multiprocessing

class someClass(object):
    def __init__(self):
        pass

    def f(self, x):
        return x*x

    def go(self):
        pool = multiprocessing.Pool(processes=4)       
        print pool.map(self.f, range(10))

Кто-нибудь знает, в чем может быть проблема, или простой способ ее обойти?

Alex Martelli · Answer 1 · 30 ноября 2009

Проблема заключается в том, что многопроцессорная обработка должна выполнять сортировку между процессами, а связанные методы не могут быть выбраны. Обходной путь (независимо от того, считаете ли вы это «простым» или нет ;-) - это добавить инфраструктуру в вашу программу, чтобы такие методы можно было выбрать, зарегистрировав ее с помощью стандартного библиотечного метода copy_reg .

Например, вклад Стивена Бетарда в этой цепочки (ближе к концу цепочки) демонстрирует один вполне работоспособный подход, позволяющий метод травления / расслоения методом copy_reg.

Mike McKerns · Answer 2 · 25 января 2014

Все эти решения безобразны, потому что многопроцессорная обработка и травление нарушены и ограничены, если вы не выйдете за пределы стандартной библиотеки.

Если вы используете форк multiprocessing с именем pathos.multiprocesssing, вы можете напрямую использовать классы и методы классов в многопроцессорных функциях map. Это связано с тем, что dill используется вместо pickle или cPickle, а dill может сериализовать практически все в Python.

pathos.multiprocessing также предоставляет функцию асинхронного отображения ... и может map функции с несколькими аргументами (например, map(math.pow, [1,2,3], [4,5,6]))

См: Что могут делать мультипроцессор и укроп вместе?

и: http://matthewrocklin.com/blog/work/2013/12/05/Parallelism-and-Serialization/

>>> import pathos.pools as pp
>>> p = pp.ProcessPool(4)
>>> 
>>> def add(x,y):
...   return x+y
... 
>>> x = [0,1,2,3]
>>> y = [4,5,6,7]
>>> 
>>> p.map(add, x, y)
[4, 6, 8, 10]
>>> 
>>> class Test(object):
...   def plus(self, x, y): 
...     return x+y
... 
>>> t = Test()
>>> 
>>> p.map(Test.plus, [t]*4, x, y)
[4, 6, 8, 10]
>>> 
>>> p.map(t.plus, x, y)
[4, 6, 8, 10]

И, чтобы быть в явном виде, вы можете делать именно то, что вы хотели, в первую очередь, и вы можете сделать это от переводчика, если хотите.

>>> import pathos.pools as pp
>>> class someClass(object):
...   def __init__(self):
...     pass
...   def f(self, x):
...     return x*x
...   def go(self):
...     pool = pp.ProcessPool(4)
...     print pool.map(self.f, range(10))
... 
>>> sc = someClass()
>>> sc.go()
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
>>>

Получить код здесь: https://github.com/uqfoundation/pathos

dorvak · Answer 3 · 08 августа 2011

Вы также можете определить метод __call__() внутри вашего someClass(), который вызывает someClass.go() и затем передает экземпляр someClass() в пул. Этот объект является маринованным, и он отлично работает (для меня) ...

Eric H. · Answer 4 · 05 сентября 2011

Некоторые ограничения для решения Стивена Бетарда:

Когда вы регистрируете свой метод класса как функцию, деструктор вашего класса неожиданно вызывается каждый раз, когда заканчивается обработка вашего метода.Так что если у вас есть 1 экземпляр вашего класса, который вызывает n раз его метод, члены могут исчезнуть между двумя запусками, и вы можете получить сообщение malloc: *** error for object 0x...: pointer being freed was not allocated (например, открытый файл участника) или pure virtual method called, terminate called without an active exception (что означает, что время жизни членаобъект, который я использовал, был короче, чем я думал).Я получил это при работе с n больше, чем размер пула.Вот краткий пример:

from multiprocessing import Pool, cpu_count
from multiprocessing.pool import ApplyResult

# --------- see Stenven's solution above -------------
from copy_reg import pickle
from types import MethodType

def _pickle_method(method):
    func_name = method.im_func.__name__
    obj = method.im_self
    cls = method.im_class
    return _unpickle_method, (func_name, obj, cls)

def _unpickle_method(func_name, obj, cls):
    for cls in cls.mro():
        try:
            func = cls.__dict__[func_name]
        except KeyError:
            pass
        else:
            break
    return func.__get__(obj, cls)


class Myclass(object):

    def __init__(self, nobj, workers=cpu_count()):

        print "Constructor ..."
        # multi-processing
        pool = Pool(processes=workers)
        async_results = [ pool.apply_async(self.process_obj, (i,)) for i in range(nobj) ]
        pool.close()
        # waiting for all results
        map(ApplyResult.wait, async_results)
        lst_results=[r.get() for r in async_results]
        print lst_results

    def __del__(self):
        print "... Destructor"

    def process_obj(self, index):
        print "object %d" % index
        return "results"

pickle(MethodType, _pickle_method, _unpickle_method)
Myclass(nobj=8, workers=3)
# problem !!! the destructor is called nobj times (instead of once)

Вывод:

Constructor ...
object 0
object 1
object 2
... Destructor
object 3
... Destructor
object 4
... Destructor
object 5
... Destructor
object 6
... Destructor
object 7
... Destructor
... Destructor
... Destructor
['results', 'results', 'results', 'results', 'results', 'results', 'results', 'results']
... Destructor

Метод __call__ не столь эквивалентен, поскольку [None, ...] считывается из результатов:

from multiprocessing import Pool, cpu_count
from multiprocessing.pool import ApplyResult

class Myclass(object):

    def __init__(self, nobj, workers=cpu_count()):

        print "Constructor ..."
        # multiprocessing
        pool = Pool(processes=workers)
        async_results = [ pool.apply_async(self, (i,)) for i in range(nobj) ]
        pool.close()
        # waiting for all results
        map(ApplyResult.wait, async_results)
        lst_results=[r.get() for r in async_results]
        print lst_results

    def __call__(self, i):
        self.process_obj(i)

    def __del__(self):
        print "... Destructor"

    def process_obj(self, i):
        print "obj %d" % i
        return "result"

Myclass(nobj=8, workers=3)
# problem !!! the destructor is called nobj times (instead of once), 
# **and** results are empty !

Так что ни один из обоих методов не удовлетворяет ...

torek · Answer 5 · 19 апреля 2012

Есть еще один ярлык, который вы можете использовать, хотя он может быть неэффективным в зависимости от того, что находится в экземплярах вашего класса.

Как все говорили, проблема в том, что код multiprocessing должен перебирать вещи, которые он отправляет запущенным подпроцессам, а средство выбора не выполняет методы экземпляра.

Однако, вместо отправки метода экземпляра, вы можете отправить фактический экземпляр класса плюс имя вызываемой функции в обычную функцию, которая затем использует getattr для вызова метода экземпляра, создавая, таким образом, связанный метод в подпроцессе Pool. Это похоже на определение метода __call__, за исключением того, что вы можете вызывать более одной функции-члена.

Похищение кода @ EricH. Из его ответа и аннотирование его (я набрал его заново, поэтому все имена меняются и тому подобное, по некоторым причинам это казалось проще, чем вырезать и вставить :-)) для иллюстрации всех магия:

import multiprocessing
import os

def call_it(instance, name, args=(), kwargs=None):
    "indirect caller for instance methods and multiprocessing"
    if kwargs is None:
        kwargs = {}
    return getattr(instance, name)(*args, **kwargs)

class Klass(object):
    def __init__(self, nobj, workers=multiprocessing.cpu_count()):
        print "Constructor (in pid=%d)..." % os.getpid()
        self.count = 1
        pool = multiprocessing.Pool(processes = workers)
        async_results = [pool.apply_async(call_it,
            args = (self, 'process_obj', (i,))) for i in range(nobj)]
        pool.close()
        map(multiprocessing.pool.ApplyResult.wait, async_results)
        lst_results = [r.get() for r in async_results]
        print lst_results

    def __del__(self):
        self.count -= 1
        print "... Destructor (in pid=%d) count=%d" % (os.getpid(), self.count)

    def process_obj(self, index):
        print "object %d" % index
        return "results"

Klass(nobj=8, workers=3)

Вывод показывает, что действительно, конструктор вызывается один раз (в исходном pid), а деструктор вызывается 9 раз (один раз для каждой сделанной копии = 2 или 3 раза за пул-рабочий процесс, если необходимо, плюс один раз в оригинальном процессе). Это часто нормально, как в этом случае, так как сборщик по умолчанию делает копию всего экземпляра и (частично) тайно повторно заполняет его - в этом случае, делая:

obj = object.__new__(Klass)
obj.__dict__.update({'count':1})

- вот почему, несмотря на то, что деструктор вызывается восемь раз в трех рабочих процессах, он ведет отсчет от 1 до 0 каждый раз, - но, конечно, вы все равно можете столкнуться с проблемой. При необходимости вы можете предоставить свои __setstate__:

    def __setstate__(self, adict):
        self.count = adict['count']

в данном случае, например.

parisjohn · Answer 6 · 31 января 2017

Вы также можете определить метод __call__() внутри вашего someClass(), который вызывает someClass.go() и затем передает экземпляр someClass() в пул. Этот объект является маринованным, и он отлично работает (для меня) ...

class someClass(object):
   def __init__(self):
       pass
   def f(self, x):
       return x*x

   def go(self):
      p = Pool(4)
      sc = p.map(self, range(4))
      print sc

   def __call__(self, x):   
     return self.f(x)

sc = someClass()
sc.go()

neobot · Answer 7 · 27 июня 2018

Решение от parisjohn и выше прекрасно работает у меня. Плюс код выглядит чистым и простым для понимания. В моем случае есть несколько функций для вызова с использованием Pool, поэтому я изменил код parisjohn чуть ниже. Я сделал call , чтобы иметь возможность вызывать несколько функций, а имена функций передаются в аргументе dict из go():

from multiprocessing import Pool
class someClass(object):
    def __init__(self):
        pass

    def f(self, x):
        return x*x

    def g(self, x):
        return x*x+1    

    def go(self):
        p = Pool(4)
        sc = p.map(self, [{"func": "f", "v": 1}, {"func": "g", "v": 2}])
        print sc

    def __call__(self, x):
        if x["func"]=="f":
            return self.f(x["v"])
        if x["func"]=="g":
            return self.g(x["v"])        

sc = someClass()
sc.go()

0script0 · Answer 8 · 17 мая 2018

Почему бы не использовать отдельную функцию?

def func(*args, **kwargs):
    return inst.method(args, kwargs)

print pool.map(func, arr)

mhh · Answer 9 · 23 марта 2018

В этом простом случае, когда someClass.f не наследует какие-либо данные из класса и ничего не присоединяет к классу, возможное решение состоит в том, чтобы выделить f, поэтому его можно засечь:

import multiprocessing


def f(x):
    return x*x


class someClass(object):
    def __init__(self):
        pass

    def go(self):
        pool = multiprocessing.Pool(processes=4)       
        print pool.map(f, range(10))

David Parks · Answer 10 · 20 декабря 2016

Потенциально тривиальным решением этого является переход на использование multiprocessing.dummy. Это основанная на потоках реализация многопроцессорного интерфейса, которая, похоже, не имеет этой проблемы в Python 2.7. У меня нет большого опыта здесь, но это быстрое изменение импорта позволило мне вызвать apply_async для метода класса.

Несколько хороших ресурсов на multiprocessing.dummy:

https://docs.python.org/2/library/multiprocessing.html#module-multiprocessing.dummy

http://chriskiehl.com/article/parallelism-in-one-line/

Невозможно выбрать <type 'instancemethod'> при использовании многопроцессорной обработки Pool.map ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Невозможно выбрать <type 'instancemethod'> при использовании многопроцессорной обработки Pool.map ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы