Использовать массив numpy в разделяемой памяти для многопроцессорной обработки - PullRequest
85 голосов
/ 25 октября 2011

Я хотел бы использовать массив NumPy в общей памяти для использования с модулем многопроцессорной обработки.Сложность заключается в использовании его как массива numpy, а не только как массива ctypes.

from multiprocessing import Process, Array
import scipy

def f(a):
    a[0] = -a[0]

if __name__ == '__main__':
    # Create the array
    N = int(10)
    unshared_arr = scipy.rand(N)
    arr = Array('d', unshared_arr)
    print "Originally, the first two elements of arr = %s"%(arr[:2])

    # Create, start, and finish the child processes
    p = Process(target=f, args=(arr,))
    p.start()
    p.join()

    # Printing out the changed values
    print "Now, the first two elements of arr = %s"%arr[:2]

Это приводит к выводу, например:

Originally, the first two elements of arr = [0.3518653236697369, 0.517794725524976]
Now, the first two elements of arr = [-0.3518653236697369, 0.517794725524976]

Массив может быть доступен в ctypesманера, например, arr[i] имеет смысл.Однако это не пустой массив, и я не могу выполнять такие операции, как -1*arr или arr.sum().Я полагаю, что решением было бы преобразовать массив ctypes в массив numpy.Однако (помимо невозможности сделать эту работу), я не верю, что она будет более распространена.

Кажется, было бы стандартное решение того, что должно быть общей проблемой.

Ответы [ 5 ]

70 голосов
/ 27 октября 2011

Добавить к ответам @ unutbu (больше не доступно) и @Henry Gomersall.Вы можете использовать shared_arr.get_lock() для синхронизации доступа при необходимости:

shared_arr = mp.Array(ctypes.c_double, N)
# ...
def f(i): # could be anything numpy accepts as an index such another numpy array
    with shared_arr.get_lock(): # synchronize access
        arr = np.frombuffer(shared_arr.get_obj()) # no data copying
        arr[i] = -arr[i]

Пример

import ctypes
import logging
import multiprocessing as mp

from contextlib import closing

import numpy as np

info = mp.get_logger().info

def main():
    logger = mp.log_to_stderr()
    logger.setLevel(logging.INFO)

    # create shared array
    N, M = 100, 11
    shared_arr = mp.Array(ctypes.c_double, N)
    arr = tonumpyarray(shared_arr)

    # fill with random values
    arr[:] = np.random.uniform(size=N)
    arr_orig = arr.copy()

    # write to arr from different processes
    with closing(mp.Pool(initializer=init, initargs=(shared_arr,))) as p:
        # many processes access the same slice
        stop_f = N // 10
        p.map_async(f, [slice(stop_f)]*M)

        # many processes access different slices of the same array
        assert M % 2 # odd
        step = N // 10
        p.map_async(g, [slice(i, i + step) for i in range(stop_f, N, step)])
    p.join()
    assert np.allclose(((-1)**M)*tonumpyarray(shared_arr), arr_orig)

def init(shared_arr_):
    global shared_arr
    shared_arr = shared_arr_ # must be inherited, not passed as an argument

def tonumpyarray(mp_arr):
    return np.frombuffer(mp_arr.get_obj())

def f(i):
    """synchronized."""
    with shared_arr.get_lock(): # synchronize access
        g(i)

def g(i):
    """no synchronization."""
    info("start %s" % (i,))
    arr = tonumpyarray(shared_arr)
    arr[i] = -1 * arr[i]
    info("end   %s" % (i,))

if __name__ == '__main__':
    mp.freeze_support()
    main()

Если вам не нужен синхронизированный доступ или вы создаете свои собственные блокировки, тогда mp.Array()ненужным.В этом случае вы можете использовать mp.sharedctypes.RawArray.

17 голосов
/ 26 октября 2011

С объектом Array связан метод get_obj(), который возвращает массив ctypes, представляющий интерфейс буфера. Я думаю, что следующее должно работать ...

from multiprocessing import Process, Array
import scipy
import numpy

def f(a):
    a[0] = -a[0]

if __name__ == '__main__':
    # Create the array
    N = int(10)
    unshared_arr = scipy.rand(N)
    a = Array('d', unshared_arr)
    print "Originally, the first two elements of arr = %s"%(a[:2])

    # Create, start, and finish the child process
    p = Process(target=f, args=(a,))
    p.start()
    p.join()

    # Print out the changed values
    print "Now, the first two elements of arr = %s"%a[:2]

    b = numpy.frombuffer(a.get_obj())

    b[0] = 10.0
    print a[0]

При запуске выводится первый элемент a, который теперь равен 10.0, показывая, что a и b - это только два представления в одной и той же памяти.

Чтобы убедиться, что он все еще является многопроцессорным безопасным, я полагаю, что вам придется использовать методы acquire и release, существующие в объекте Array, a, и встроенную блокировку, чтобы сделать уверен, что все это безопасно (хотя я не эксперт по многопроцессорному модулю).

12 голосов
/ 10 июня 2016

Несмотря на то, что уже даны хорошие ответы, решение этой проблемы гораздо проще, если выполнены два условия:

  1. Вы используете POSIX-совместимую операционную систему (например, Linux, Mac OSX); и
  2. Вашим дочерним процессам требуется доступ только для чтения к общему массиву.

В этом случае вам не нужно возиться с явным созданием общих переменных, так как дочерние процессы будут создаваться с использованием fork. Разветвленный ребенок автоматически разделяет пространство памяти родителя. В контексте многопроцессорной обработки Python это означает, что он разделяет все переменные уровня модуля ; обратите внимание, что не содержит для аргументов, которые вы явно передаете своим дочерним процессам или функциям, которые вы вызываете для multiprocessing.Pool или около того.

Простой пример:

import multiprocessing
import numpy as np

# will hold the (implicitly mem-shared) data
data_array = None

# child worker function
def job_handler(num):
    # built-in id() returns unique memory ID of a variable
    return id(data_array), np.sum(data_array)

def launch_jobs(data, num_jobs=5, num_worker=4):
    global data_array
    data_array = data

    pool = multiprocessing.Pool(num_worker)
    return pool.map(job_handler, range(num_jobs))

# create some random data and execute the child jobs
mem_ids, sumvals = zip(*launch_jobs(np.random.rand(10)))

# this will print 'True' on POSIX OS, since the data was shared
print(np.all(np.asarray(mem_ids) == id(data_array)))
9 голосов
/ 22 октября 2015

Я написал небольшой модуль на python, который использует разделяемую память POSIX для совместного использования массивов между интерпретаторами python. Может быть, вы найдете это под рукой.

https://pypi.python.org/pypi/SharedArray

Вот как это работает:

import numpy as np
import SharedArray as sa

# Create an array in shared memory
a = sa.create("test1", 10)

# Attach it as a different array. This can be done from another
# python interpreter as long as it runs on the same computer.
b = sa.attach("test1")

# See how they are actually sharing the same memory block
a[0] = 42
print(b[0])

# Destroying a does not affect b.
del a
print(b[0])

# See how "test1" is still present in shared memory even though we
# destroyed the array a.
sa.list()

# Now destroy the array "test1" from memory.
sa.delete("test1")

# The array b is not affected, but once you destroy it then the
# data are lost.
print(b[0])
8 голосов
/ 25 мая 2013

Вы можете использовать модуль sharedmem: https://bitbucket.org/cleemesser/numpy-sharedmem

Вот ваш оригинальный код, на этот раз с использованием общей памяти, которая ведет себя как массив NumPy (обратите внимание на дополнительный последний оператор, вызывающий функцию NumPy sum()):

from multiprocessing import Process
import sharedmem
import scipy

def f(a):
    a[0] = -a[0]

if __name__ == '__main__':
    # Create the array
    N = int(10)
    unshared_arr = scipy.rand(N)
    arr = sharedmem.empty(N)
    arr[:] = unshared_arr.copy()
    print "Originally, the first two elements of arr = %s"%(arr[:2])

    # Create, start, and finish the child process
    p = Process(target=f, args=(arr,))
    p.start()
    p.join()

    # Print out the changed values
    print "Now, the first two elements of arr = %s"%arr[:2]

    # Perform some NumPy operation
    print arr.sum()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...