Просто для учебы: у меня есть функция, которая получает три аргумента следующим образом.
- a pointer to a 4x4 floating point matrix
- a pointer to a 4x1 floating point vector (input vector)
- a pointer to a 4x1 floating point vector (output vector).
Задача функции - просто умножение матрицы на входной вектор и сохранение результата в качестве выходного вектора.
Объявление функции в C / C ++ выглядит примерно так:
void mult(MATRIX4x4* m, VECTOR4x1* in, VECTOR4x1* out);
Обратите внимание, что все структуры MATRIX4x4 и VECTOR4x1 выровнены по 16 байтов.
Я хотел бы использовать регистры x86-SSE и инструкции для этой задачи.Код, который я написал на ассемблере, выглядит следующим образом:
.486
.xmm
.model flat
; .........................................................
public ___asm_vec_mat_product
; .........................................................
CODE segment dword public 'CODE' use32
ASSUME cs:CODE
; .........................................................
___asm_vec_mat_product proc near
push ebp
mov ebp, esp
mov ecx, [ebp + 8 ] ;get matrix_4x4 pointer
mov esi, [ebp + 12] ;get vector_4x1 input pointer
mov edi, [ebp + 16] ;get vector_4x1 output pointer
movaps xmm4, xmmword ptr [esi] ; load both input and output vectors in a 128bit register
movaps xmm5, xmmword ptr [edi] ; load both input and output vectors in a 128bit register
movaps xmm0, xmmword ptr [ecx] ; get matrix elements
movaps xmm1, xmmword ptr [ecx + 16] ;
movaps xmm2, xmmword ptr [ecx + 32] ;
movaps xmm3, xmmword ptr [ecx + 48] ;
; do the math -----------------------------------
movaps xmm7, xmm4
movaps xmm6, xmm4
dpps xmm7, xmm0, 11110001b
dpps xmm6, xmm1, 11110001b
insertps xmm5, xmm7, 00000000b
insertps xmm5, xmm6, 00010000b
movaps xmm7, xmm4
dpps xmm4, xmm2, 11110001b
dpps xmm7, xmm3, 11110001b
insertps xmm5, xmm4, 00100000b
insertps xmm5, xmm7, 00110000b
movaps xmmword ptr [edi], xmm5 ; save the result as a 128bits value
; do the math -----------------------------------
pop ebp
ret
___asm_vec_mat_product endp
; .........................................................
CODE ends
end
; .........................................................
Он отлично работает, но вопрос в том, есть ли еще место для ускорения его выполнения и еще большей оптимизации с использованием x86-Инструкция SSE.
ps: я уже прочитал руководства по оптимизации C ++ и сборке, предоставленные Agner Fog.
Мой процессор не поддерживает AVX, поэтому я использую только SSE4.1.