Как использовать все ядра для ускорения программы моделирования на основе массивного трехмерного массива? - PullRequest
1 голос
/ 10 апреля 2019

Я использую python для построения имитационной модели физики. Теперь у меня есть два массива 3d arr_A и arr_B размером 50 * 50 * 15 (может быть увеличено до 1000 *1000* 50 в будущем). И я хочу увидеть, как эти два массива развиваются на основе некоторых определенных вычислений. Я пытался ускорить свою программу с помощью параллельных вычислений, используя свою 12-ядерную машину, но результат был не таким хорошим. Я наконец понимаю, что питон очень медленный в научных вычислениях.

Нужно ли переписывать мою программу на языке Си? Это довольно тяжелая работа. Я слышал, что Cython может быть решением. Должен ли я использовать это? Мне действительно нужен совет по ускорению моей программы, так как я новичок в программировании. Я работаю на машине win10 x64 с 12 ядрами.

Мои вычисления примерно такие:
Значение в arr_A равно 1 или 0. Для каждого «1» в arr_A мне нужно вычислить определенное значение в соответствии с arr_B. Например, если arr_A [x, y, z] == 1, C [x, y, z] = 1 / (arr_B [x-1, y, z] + arr_B [x, y-1, z] + arr_B [х, у, г-1] + arr_B [х + 1, Y, Z] + arr_B [х, у + 1, г] + arr_B [х, у, г + 1]). Затем я использую минимум в массиве C в качестве параметра для функции. Функция может немного изменить arr_A и arr_B, чтобы они могли развиваться. Затем мы снова вычисляем «результат» и цикл продолжается.

Обратите внимание, что для каждого C [x, y, z] задействовано много значений в arr_B. В противном случае я могу сделать что-то вроде этого:

C = arr_B[arr_A>0]**2

Я надеюсь, что решение может быть таким простым. Но я не могу найти никаких возможных методов индексации, кроме тройного вложенного цикла for.

После прочтения этого и некоторых документов о многопоточности и многопроцессорности я попытался использовать многопроцессорность, но симуляция не намного быстрее.

Я использую ломтик как this для многопроцессорной обработки. Чтобы быть конкретным, carrier_3d и потенциал_3d - это arr_A и arr_B, которые я упоминал выше соответственно. Я положил ломтики в разные подпроцессы. Детали функций здесь не приведены, но вы можете понять основную идею.

chunk = np.shape(carrier_3d)[0] // cores
p = Pool(processes=cores)
for i in range(cores):
    slice_of_carrier_3d = slice(i*chunk, 
                                np.shape(carrier_3d)[0] if i == cores-1 else (i+1)*chunk+2)
    p.apply_async(hopping_x_section, args=(i, chunk,carrier_3d[slice_of_carrier_3d, :, :], 
                                               potential_3d[slice_of_carrier_3d, :, :]), 
                                    callback=paral_site_record)
p.close()
p.join() 

Если вы хотите узнать больше о вычислениях, следующий код в основном показывает, как мои вычисления работают без многопроцессорной обработки. Но я объяснил процесс выше.

def vab(carrier_3d, potential_3d, a, b):
    try:
        Ea = potential_3d[a[0], a[1], a[2]]
        Eb = potential_3d[b[0], b[1], b[2]]
        if carrier_3d[b[0], b[1], b[2]] > 0:
            return 0
        elif b[2] < t_ox:
            return 0
        elif b[0] < 0 or b[1] < 0:
            return 0
        elif Eb > Ea:
            return math.exp(-10*math.sqrt((b[0]-a[0])**2+
                                              (b[1]-a[1])**2+(b[2]-a[2])**2)-
                                              q*(Eb-Ea)/(kB*T))
        else:
            return math.exp(-10*math.sqrt((b[0]-a[0])**2+
                                              (b[1]-a[1])**2+(b[2]-a[2])**2))
    except IndexError:
        return 0
#Given a point, get the vij to all 26 directions at the point
def v_all_drt(carrier_3d, potential_3d, x, y, z):
    x_neighbor = [-1, 0, 1]
    y_neighbor = [-1, 0, 1]
    z_neighbor = [-1, 0, 1]  
    v = []#v is the hopping probability
    drtn = []#direction
    for i in x_neighbor:
        for j in y_neighbor:
            for k in z_neighbor:
                v.append(vab(carrier_3d, potential_3d, 
                             [x, y, z], [x+i, y+j, z+k]))
                drtn.append([x+i, y+j, z+k])
    return np.array(v), np.array(drtn)
    #v is a list of probability(v_ij) hopping to nearest sites.
    #drt is the corresponding dirction(site).
def hopping():  
    global sys_time
    global time_counter
    global hop_ini
    global hop_finl
    global carrier_3d
    global potential_3d
    rt_min = 1000#1000 is meaningless. Just a large enough name to start
    for x in range(np.shape(carrier_3d)[0]):
        for y in range(np.shape(carrier_3d)[1]):
            for z in range(t_ox, np.shape(carrier_3d)[2]):
                if carrier_3d[x, y, z] == 1:
                    v, drt = v_all_drt(carrier_3d, potential_3d, x, y, z)
                    if v.sum() > 0:
                        rt_i = -math.log(random.random())/v.sum()/v0
                        if rt_i < rt_min:
                            rt_min = rt_i
                            v_hop = v
                            drt_hop = drt
                            hop_ini = np.array([x, y, z], dtype = int)
    #Above loop finds the carrier that hops. 
    #Yet we still need the hopping direction.
    rdm2 = random.random()
    for i in range(len(v_hop)):
        if (rdm2 > v_hop[:i].sum()/v_hop.sum()) and\
            (rdm2 <= v_hop[:i+1].sum()/v_hop.sum()):
                hop_finl = np.array(drt_hop[i], dtype = int)
                break      
    carrier_3d[hop_ini[0], hop_ini[1], hop_ini[2]] = 0
    carrier_3d[hop_finl[0], hop_finl[1], hop_finl[2]] = 1 
def update_carrier():
    pass
def update_potential():
    pass
#------------------------------------- 
carrier_3d = np.random.randn(len_x, len_y, len_z)
carrier_3d[carrier_3d>.5] = 1
carrier_3d[carrier_3d<=.5] = 0
carrier_3d = carrier_3d.astype(int)
potential_3d = np.random.randn(len_x, len_y, len_z)
while time_counter <= set_time:# set the running time of the simulation
    hopping() 
    update_carrier()
    update_potential()
    time_counter += 1

1 Ответ

0 голосов
/ 10 апреля 2019

Вы можете использовать numba для создания jit-скомпилированной версии вашей функции анализа. Это само по себе будет самым большим ускорением для вашего кода и будет работать очень хорошо, когда ваша проблема соответствует ограничениям. Вам придется написать более сложный анализ в цикле for, но я не вижу причин, по которым то, что вы обрисовали в общих чертах, не сработает. Посмотрите следующий код, который показывает ускорение в 330 раз путем компиляции с помощью numba. Вы также можете указать некоторые функции Numba для параллельного выполнения. Однако накладные расходы, связанные с этим, добавляют ускорение только тогда, когда проблема становится достаточно большой, так что это то, что вы должны будете рассмотреть для себя

from numpy import *
from numba import njit

def function(A, B):
    C = zeros(shape=B.shape)
    X, Y, Z = B.shape
    for x in range(X):
        for y in range(Y):
            for z in range(Z):
                if A[x, y, z] == 1:
                    C[x, y, z] = B[x, y, z]**2
    return C

cfunction = njit(function)
cfunction_parallel = njit(function, parallel=True)

X, Y, Z = 50, 50, 10
A = random.randint(0, 2, size=X*Y*Z).reshape(X, Y, Z)
B = random.random(size=X*Y*Z).reshape(X, Y, Z)

_ = cfunction(A, B)  # force compilation so as not to slow down timers
_ = cfunction_parallel(A, B)

print('uncompiled function')
%timeit function(A, B)

print('\nfor smaller computations, the parallel overhead makes it slower')
%timeit cfunction(A, B)
%timeit cfunction_parallel(A, B)

X, Y, Z = 1000, 1000, 50
A = random.randint(0, 2, size=X*Y*Z).reshape(X, Y, Z)
B = random.random(size=X*Y*Z).reshape(X, Y, Z)

print('\nfor larger computations, parallelization helps')
%timeit cfunction(A, B)
%timeit cfunction_parallel(A, B)

это печатает:

uncompiled function
23.2 ms ± 147 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

for smaller computations, the parallel overhead makes it slower
77.5 µs ± 1.69 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
121 µs ± 2.42 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

for larger computations, parallelization helps
138 ms ± 1.84 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
40.1 ms ± 633 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
...