x86 оптимизация SSE для матрицы с плавающей запятой 4x4 * векторное произведение - PullRequest
0 голосов
/ 19 сентября 2018

Просто для учебы: у меня есть функция, которая получает три аргумента следующим образом.

- a pointer to a 4x4 floating point matrix
- a pointer to a 4x1 floating point vector (input vector)
- a pointer to a 4x1 floating point vector (output vector).

Задача функции - просто умножение матрицы на входной вектор и сохранение результата в качестве выходного вектора.

Объявление функции в C / C ++ выглядит примерно так:

void mult(MATRIX4x4* m, VECTOR4x1* in, VECTOR4x1* out);

Обратите внимание, что все структуры MATRIX4x4 и VECTOR4x1 выровнены по 16 байтов.

Я хотел бы использовать регистры x86-SSE и инструкции для этой задачи.Код, который я написал на ассемблере, выглядит следующим образом:

.486
.xmm
.model flat
; .........................................................
public ___asm_vec_mat_product
; .........................................................
CODE segment dword public 'CODE' use32
ASSUME cs:CODE
; .........................................................
___asm_vec_mat_product proc near
    push ebp
    mov  ebp, esp   

    mov ecx, [ebp + 8 ]                     ;get matrix_4x4 pointer
    mov esi, [ebp + 12]                     ;get vector_4x1 input  pointer
    mov edi, [ebp + 16]                     ;get vector_4x1 output pointer

    movaps xmm4, xmmword ptr [esi]          ; load both input and output vectors in a 128bit register 
    movaps xmm5, xmmword ptr [edi]          ; load both input and output vectors in a 128bit register 

    movaps xmm0, xmmword ptr [ecx]          ; get matrix elements
    movaps xmm1, xmmword ptr [ecx + 16]     ;
    movaps xmm2, xmmword ptr [ecx + 32]     ;
    movaps xmm3, xmmword ptr [ecx + 48]     ;       
    ; do the math -----------------------------------
        movaps   xmm7, xmm4
        movaps   xmm6, xmm4

        dpps     xmm7, xmm0, 11110001b      
        dpps     xmm6, xmm1, 11110001b
        insertps xmm5, xmm7, 00000000b  
        insertps xmm5, xmm6, 00010000b

        movaps   xmm7, xmm4

        dpps     xmm4, xmm2, 11110001b
        dpps     xmm7, xmm3, 11110001b
        insertps xmm5, xmm4, 00100000b
        insertps xmm5, xmm7, 00110000b

        movaps xmmword ptr [edi], xmm5      ; save the result as a 128bits value 
    ; do the math -----------------------------------
    pop  ebp
    ret
___asm_vec_mat_product endp
; .........................................................
CODE ends
end
; .........................................................

Он отлично работает, но вопрос в том, есть ли еще место для ускорения его выполнения и еще большей оптимизации с использованием x86-Инструкция SSE.

ps: я уже прочитал руководства по оптимизации C ++ и сборке, предоставленные Agner Fog.

Мой процессор не поддерживает AVX, поэтому я использую только SSE4.1.

...