Question

Я написал в Python функцию для вычисления дельта-функции в расширении Гаусса, которое включает в себя 4-уровневые циклы. Однако эффективность очень низкая, примерно в 10 раз медленнее, чем при использовании Фортрана аналогичным образом.

def Delta_Gaussf(Nw, N_bd, N_kp, hw, eigv):
    Delta_Gauss = np.zeros((Nw,N_kp,N_bd,N_bd),dtype=float)
    for w1 in range(Nw):
        for k1 in range(N_kp):
            for i1 in range(N_bd):
                for j1 in range(N_bd):
                    if ( j1 >= i1 ):
                        Delta_Gauss[w1][k1][i1][j1] = np.exp(pow((eigv[k1][j1]-eigv[k1][i1]-hw[w1])/width,2))
    return Delta_Gauss

Я убрал некоторые константы, чтобы они выглядели проще.

Может ли кто-нибудь помочь мне оптимизировать этот скрипт для повышения эффективности?

max9111 · Answer 1 · 08 мая 2018

Просто скомпилируйте

Для достижения максимальной производительности я рекомендую Numba (простота использования, хорошая производительность). В качестве альтернативы Cython может быть хорошей идеей, но с немного большим количеством изменений в вашем коде.

На самом деле вы все правильно поняли и внедрили простое для понимания (для человека и самое важное для компилятора) решение.

Существует два основных способа повысить производительность

Векторизация кода, как показал @scnerd. Обычно это немного медленнее и сложнее, чем просто компилировать довольно простой код, который использует только некоторые для циклов. Не векторизовать ваш код, а затем использовать компилятор. Из-за простого циклического подхода это обычно является некоторой работой, которая приводит к более медленному и более сложному результату. Преимущество этого процесса заключается в том, что вам нужен только numpy, который является стандартной зависимостью почти в каждом проекте Python, который имеет дело с некоторыми числовыми вычислениями.
Скомпилируйте код. Если у вас уже есть решение с несколькими циклами и без каких-либо других, или только с несколькими непонятными функциями, это часто является самым простым и быстрым решением.

Решение с использованием Numba

Вам не нужно сильно менять, я изменил функцию pow на np.power и некоторые небольшие изменения в способе обращения к массивам в numpy (это на самом деле не нужно).

import numba as nb
import numpy as np

#performance-debug info
import llvmlite.binding as llvm
llvm.set_option('', '--debug-only=loop-vectorize')

@nb.njit(fastmath=True)
def Delta_Gaussf_nb(Nw, N_bd, N_kp, hw, width,eigv):
    Delta_Gauss = np.zeros((Nw,N_kp,N_bd,N_bd),dtype=float)
    for w1 in range(Nw):
        for k1 in range(N_kp):
            for i1 in range(N_bd):
                for j1 in range(N_bd):
                    if ( j1 >= i1 ):
                        Delta_Gauss[w1,k1,i1,j1] = np.exp(np.power((eigv[k1,j1]-eigv[k1,i1]-hw[w1])/width,2))
    return Delta_Gauss

Из-за 'if' SIMD-векторизация завершается неудачно. На следующем шаге мы можем удалить его (возможно, потребуется вызов за пределы функции njited np.triu(Delta_Gauss)). Я также распараллелил функцию.

@nb.njit(fastmath=True,parallel=True)
def Delta_Gaussf_1(Nw, N_bd, N_kp, hw, width,eigv):
    Delta_Gauss = np.zeros((Nw,N_kp,N_bd,N_bd),dtype=np.float64)
    for w1 in nb.prange(Nw):
        for k1 in range(N_kp):
            for i1 in range(N_bd):
                for j1 in range(N_bd):
                    Delta_Gauss[w1,k1,i1,j1] = np.exp(np.power((eigv[k1,j1]-eigv[k1,i1]-hw[w1])/width,2))
    return Delta_Gauss

Производительность

Nw = 20
N_bd = 20
N_kp = 20
width=20
hw = np.linspace(0., 1.0, Nw) 
eigv = np.zeros((N_kp, N_bd),dtype=np.float) 

Your version:           0.5s
first_compiled version: 1.37ms
parallel version:       0.55ms

Эти простые оптимизации приводят к ускорению примерно в 1000 раз.

scnerd · Answer 2 · 07 мая 2018

BLUF: используя полную функциональность Numpy, плюс еще один аккуратный модуль, вы можете получить код Python более чем в 100 раз быстрее, чем этот необработанный код цикла for. Однако, используя ответ @ max9111, вы можете получить еще быстрее с гораздо более чистым кодом и меньшим количеством работы.

Полученный код не похож на оригинальный, поэтому я буду выполнять оптимизацию по одному шагу за раз, чтобы процесс и окончательный код имели смысл. По сути, мы собираемся использовать большое количество трансляций , чтобы заставить Numpy выполнять зацикливание (что всегда быстрее, чем зацикливание в Python). Результат вычисляет полный квадрат результатов, что означает, что мы обязательно дублируем некоторую работу, поскольку результат симметричен, но проще и, честно говоря, возможно быстрее выполнить эту работу высокопроизводительными способами, чем иметь if при самый глубокий уровень зацикливания, чтобы избежать вычислений. Этого можно избежать в Фортране, но, вероятно, не в Python. Если вы хотите, чтобы результат был идентичен предоставленному источнику, нам нужно взять верхний треугольник результата моего кода ниже (что я делаю в примере кода ниже ... не стесняйтесь удалить вызов triu в реальном производстве, это не обязательно).

Во-первых, мы заметим несколько вещей. Основное уравнение имеет знаменатель, который выполняет np.sqrt, но содержание этого вычисления не изменяется на любой итерации цикла, поэтому мы вычислим его один раз и повторно используем результат. Это оказывается незначительным, но мы все равно это сделаем. Далее, основная функция двух внутренних циклов заключается в выполнении eigv[k1][j1] - eigv[k1][i1], что довольно легко векторизовать. Если eigv является матрицей, то eigv[k1] - eigv[k1].T создает матрицу, где result[i1, j1] = eigv[k1][j1] - eigv[k1][i1]. Это позволяет нам полностью удалить две самые внутренние петли:

def mine_Delta_Gaussf(Nw, N_bd, N_kp, hw, width, eigv):
    Delta_Gauss = np.zeros((Nw, N_kp, N_bd, N_bd), dtype=float)
    denom = np.sqrt(2.0 * np.pi) * width
    eigv = np.matrix(eigv)
    for w1 in range(Nw):
        for k1 in range(N_kp):
            this_eigv = (eigv[k1] - eigv[k1].T - hw[w1])
            v = np.power(this_eigv / width, 2)
            Delta_Gauss[w1, k1, :, :] = np.exp(-0.5 * v) / denom

    # Take the upper triangle to make the result exactly equal to the original code
    return np.triu(Delta_Gauss)

Что ж, теперь, когда мы находимся в эфире, кажется, что оставшиеся две петли можно удалить таким же образом. Как это бывает, это легко! Единственное, для чего нам нужно k1 - это получить строку из eigv, которую мы пытаемся попарно вычесть ... так почему бы не сделать это для всех строк одновременно? В настоящее время мы в основном вычитаем матрицы форм (1, B) - (B, 1) для каждой из N строк в eigv (где B равно N_bd). Мы можем злоупотреблять трансляцией, чтобы сделать это для всех строк eigv одновременно, вычитая матрицы форм (N, 1, B) - (N, B, 1) (где N равно N_kp):

def mine_Delta_Gaussf(Nw, N_bd, N_kp, hw, width, eigv):
    Delta_Gauss = np.zeros((Nw, N_kp, N_bd, N_bd), dtype=float)
    denom = np.sqrt(2.0 * np.pi) * width
    for w1 in range(Nw):
        this_eigv = np.expand_dims(eigv, 1) - np.expand_dims(eigv, 2) - hw[w1]
        v = np.power(this_eigv / width, 2)
        Delta_Gauss[w1, :, :, :] = np.exp(-0.5 * v) / denom
    return np.triu(Delta_Gauss)

Следующий шаг должен быть понятен сейчас. Мы используем w1 только для индексации hw, так что давайте сделаем еще несколько трансляций, чтобы numpy зациклился. В настоящее время мы вычитаем скалярное значение из матрицы формы (N, B, B), поэтому, чтобы получить результирующую матрицу для каждого из W значений в hw, нам необходимо выполнить вычитание для матриц форм (1, N, B, B) - (W, 1, 1, 1) и numpy будет транслировать все, чтобы получить матрицу формы (W, N, B, B):

def Delta_Gaussf(hw, width, eigv):
    eigv_sub = np.expand_dims(eigv, 1) - np.expand_dims(eigv, 2)
    w_sub = np.expand_dims(eigv_sub, 0) - np.reshape(hw, (0, 1, 1, 1))
    v = np.power(w_sub / width, 2)
    denom = np.sqrt(2.0 * np.pi) * width
    Delta_Gauss = np.exp(-0.5 * v) / denom
    return np.triu(Delta_Gauss)

На моем примере данных этот код работает в ~ 100 раз быстрее (от ~ 900 мс до ~ 10 мс). Ваш пробег может отличаться.

Но подождите! Есть еще кое-что! Поскольку весь наш код числовой / numpy / python, мы можем использовать другой удобный модуль с именем numba, чтобы скомпилировать эту функцию в эквивалентный с более высокой производительностью. В сущности, это в основном чтение того, какие функции мы вызываем, и преобразование функции в C-типы и C-вызовы для устранения накладных расходов при вызове функций Python. Это делает больше, чем это, но это дает представление о том, где мы собираемся получить выгоду. Получить это преимущество тривиально в этом случае:

import numba

@numba.jit
def Delta_Gaussf(hw, width, eigv):
    eigv_sub = np.expand_dims(eigv, 1) - np.expand_dims(eigv, 2)
    w_sub = np.expand_dims(eigv_sub, 0) - np.reshape(hw, (0, 1, 1, 1))
    v = np.power(w_sub / width, 2)
    denom = np.sqrt(2.0 * np.pi) * width
    Delta_Gauss = np.exp(-0.5 * v) / denom
    return np.triu(Delta_Gauss)

Полученная функция сократилась до ~ 7 мс по моим образцам данных, по сравнению с ~ 10 мс, просто добавив этот декоратор. Довольно хорошо, без усилий.

EDIT: @ max9111 дал лучший ответ, который указывает, что numba работает намного лучше с синтаксисом цикла, чем с numpy широковещательным кодом. Почти без работы, кроме удаления внутреннего оператора if, он показывает, что numba.jit можно сделать, чтобы получить почти оригинальный код еще быстрее. Результат намного чище, потому что у вас все еще есть только одно внутреннее уравнение, которое показывает, каково каждое значение, и вам не нужно следовать волшебному вещанию, используемому выше. Я настоятельно рекомендую использовать его ответ.

Заключение

Для моих данных примера (Nw = 20, N_bd = 20, N_kp = 20) мои окончательные значения времени выполнения следующие (я включил тайминги на том же компьютере для решения @ max9111, сначала без параллельного выполнения, а затем с ним на моей 2-ядерной виртуальной машине):

Original code:               ~900 ms
Fortran estimate:            ~90 ms (based on OP saying it was ~10x faster)
Final numpy code:            ~10 ms
Final code with numba.jit:   ~7 ms
max9111's solution (serial): ~4ms
max9111 (parallel 2-core):   ~3ms

Overall vectorized speedup: ~130x
max9111's numba speedup: ~300x (potentially more with more cores)

Я не знаю, насколько точен ваш код на Фортране, но похоже, что правильное использование numpy позволяет легко превзойти его на порядок, а решение * max6911 от @ max9111 дает вам потенциально другой порядок величины.

Долгосрочная головоломка, как оптимизировать многоуровневые циклы в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Просто скомпилируйте

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Долгосрочная головоломка, как оптимизировать многоуровневые циклы в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Просто скомпилируйте

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов