Question

Я хотел бы использовать массив NumPy в общей памяти для использования с модулем многопроцессорной обработки.Сложность заключается в использовании его как массива numpy, а не только как массива ctypes.

from multiprocessing import Process, Array
import scipy

def f(a):
    a[0] = -a[0]

if __name__ == '__main__':
    # Create the array
    N = int(10)
    unshared_arr = scipy.rand(N)
    arr = Array('d', unshared_arr)
    print "Originally, the first two elements of arr = %s"%(arr[:2])

    # Create, start, and finish the child processes
    p = Process(target=f, args=(arr,))
    p.start()
    p.join()

    # Printing out the changed values
    print "Now, the first two elements of arr = %s"%arr[:2]

Это приводит к выводу, например:

Originally, the first two elements of arr = [0.3518653236697369, 0.517794725524976]
Now, the first two elements of arr = [-0.3518653236697369, 0.517794725524976]

Массив может быть доступен в ctypesманера, например, arr[i] имеет смысл.Однако это не пустой массив, и я не могу выполнять такие операции, как -1*arr или arr.sum().Я полагаю, что решением было бы преобразовать массив ctypes в массив numpy.Однако (помимо невозможности сделать эту работу), я не верю, что она будет более распространена.

Кажется, было бы стандартное решение того, что должно быть общей проблемой.

jfs · Answer 1 · 27 октября 2011

Добавить к ответам @ unutbu (больше не доступно) и @Henry Gomersall.Вы можете использовать shared_arr.get_lock() для синхронизации доступа при необходимости:

shared_arr = mp.Array(ctypes.c_double, N)
# ...
def f(i): # could be anything numpy accepts as an index such another numpy array
    with shared_arr.get_lock(): # synchronize access
        arr = np.frombuffer(shared_arr.get_obj()) # no data copying
        arr[i] = -arr[i]

Пример

import ctypes
import logging
import multiprocessing as mp

from contextlib import closing

import numpy as np

info = mp.get_logger().info

def main():
    logger = mp.log_to_stderr()
    logger.setLevel(logging.INFO)

    # create shared array
    N, M = 100, 11
    shared_arr = mp.Array(ctypes.c_double, N)
    arr = tonumpyarray(shared_arr)

    # fill with random values
    arr[:] = np.random.uniform(size=N)
    arr_orig = arr.copy()

    # write to arr from different processes
    with closing(mp.Pool(initializer=init, initargs=(shared_arr,))) as p:
        # many processes access the same slice
        stop_f = N // 10
        p.map_async(f, [slice(stop_f)]*M)

        # many processes access different slices of the same array
        assert M % 2 # odd
        step = N // 10
        p.map_async(g, [slice(i, i + step) for i in range(stop_f, N, step)])
    p.join()
    assert np.allclose(((-1)**M)*tonumpyarray(shared_arr), arr_orig)

def init(shared_arr_):
    global shared_arr
    shared_arr = shared_arr_ # must be inherited, not passed as an argument

def tonumpyarray(mp_arr):
    return np.frombuffer(mp_arr.get_obj())

def f(i):
    """synchronized."""
    with shared_arr.get_lock(): # synchronize access
        g(i)

def g(i):
    """no synchronization."""
    info("start %s" % (i,))
    arr = tonumpyarray(shared_arr)
    arr[i] = -1 * arr[i]
    info("end   %s" % (i,))

if __name__ == '__main__':
    mp.freeze_support()
    main()

Если вам не нужен синхронизированный доступ или вы создаете свои собственные блокировки, тогда mp.Array()ненужным.В этом случае вы можете использовать mp.sharedctypes.RawArray.

Henry Gomersall · Answer 2 · 26 октября 2011

С объектом Array связан метод get_obj(), который возвращает массив ctypes, представляющий интерфейс буфера. Я думаю, что следующее должно работать ...

from multiprocessing import Process, Array
import scipy
import numpy

def f(a):
    a[0] = -a[0]

if __name__ == '__main__':
    # Create the array
    N = int(10)
    unshared_arr = scipy.rand(N)
    a = Array('d', unshared_arr)
    print "Originally, the first two elements of arr = %s"%(a[:2])

    # Create, start, and finish the child process
    p = Process(target=f, args=(a,))
    p.start()
    p.join()

    # Print out the changed values
    print "Now, the first two elements of arr = %s"%a[:2]

    b = numpy.frombuffer(a.get_obj())

    b[0] = 10.0
    print a[0]

При запуске выводится первый элемент a, который теперь равен 10.0, показывая, что a и b - это только два представления в одной и той же памяти.

Чтобы убедиться, что он все еще является многопроцессорным безопасным, я полагаю, что вам придется использовать методы acquire и release, существующие в объекте Array, a, и встроенную блокировку, чтобы сделать уверен, что все это безопасно (хотя я не эксперт по многопроцессорному модулю).

EelkeSpaak · Answer 3 · 10 июня 2016

Несмотря на то, что уже даны хорошие ответы, решение этой проблемы гораздо проще, если выполнены два условия:

Вы используете POSIX-совместимую операционную систему (например, Linux, Mac OSX); и
Вашим дочерним процессам требуется доступ только для чтения к общему массиву.

В этом случае вам не нужно возиться с явным созданием общих переменных, так как дочерние процессы будут создаваться с использованием fork. Разветвленный ребенок автоматически разделяет пространство памяти родителя. В контексте многопроцессорной обработки Python это означает, что он разделяет все переменные уровня модуля ; обратите внимание, что не содержит для аргументов, которые вы явно передаете своим дочерним процессам или функциям, которые вы вызываете для multiprocessing.Pool или около того.

Простой пример:

import multiprocessing
import numpy as np

# will hold the (implicitly mem-shared) data
data_array = None

# child worker function
def job_handler(num):
    # built-in id() returns unique memory ID of a variable
    return id(data_array), np.sum(data_array)

def launch_jobs(data, num_jobs=5, num_worker=4):
    global data_array
    data_array = data

    pool = multiprocessing.Pool(num_worker)
    return pool.map(job_handler, range(num_jobs))

# create some random data and execute the child jobs
mem_ids, sumvals = zip(*launch_jobs(np.random.rand(10)))

# this will print 'True' on POSIX OS, since the data was shared
print(np.all(np.asarray(mem_ids) == id(data_array)))

mat · Answer 4 · 22 октября 2015

Я написал небольшой модуль на python, который использует разделяемую память POSIX для совместного использования массивов между интерпретаторами python. Может быть, вы найдете это под рукой.

https://pypi.python.org/pypi/SharedArray

Вот как это работает:

import numpy as np
import SharedArray as sa

# Create an array in shared memory
a = sa.create("test1", 10)

# Attach it as a different array. This can be done from another
# python interpreter as long as it runs on the same computer.
b = sa.attach("test1")

# See how they are actually sharing the same memory block
a[0] = 42
print(b[0])

# Destroying a does not affect b.
del a
print(b[0])

# See how "test1" is still present in shared memory even though we
# destroyed the array a.
sa.list()

# Now destroy the array "test1" from memory.
sa.delete("test1")

# The array b is not affected, but once you destroy it then the
# data are lost.
print(b[0])

Velimir M. · Answer 5 · 25 мая 2013

Вы можете использовать модуль sharedmem: https://bitbucket.org/cleemesser/numpy-sharedmem

Вот ваш оригинальный код, на этот раз с использованием общей памяти, которая ведет себя как массив NumPy (обратите внимание на дополнительный последний оператор, вызывающий функцию NumPy sum()):

from multiprocessing import Process
import sharedmem
import scipy

def f(a):
    a[0] = -a[0]

if __name__ == '__main__':
    # Create the array
    N = int(10)
    unshared_arr = scipy.rand(N)
    arr = sharedmem.empty(N)
    arr[:] = unshared_arr.copy()
    print "Originally, the first two elements of arr = %s"%(arr[:2])

    # Create, start, and finish the child process
    p = Process(target=f, args=(arr,))
    p.start()
    p.join()

    # Print out the changed values
    print "Now, the first two elements of arr = %s"%arr[:2]

    # Perform some NumPy operation
    print arr.sum()

Использовать массив numpy в разделяемой памяти для многопроцессорной обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пример

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использовать массив numpy в разделяемой памяти для многопроцессорной обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пример

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы