Question

Моя первоначальная попытка выглядела так (предполагается, что мы хотим умножить)

  __m128 mat[n]; /* rows */
  __m128 vec[n] = {1,1,1,1};
  float outvector[n];
   for (int row=0;row<n;row++) {
       for(int k =3; k < 8; k = k+ 4)
       {
           __m128 mrow = mat[k];
           __m128 v = vec[row];
           __m128 sum = _mm_mul_ps(mrow,v);
           sum= _mm_hadd_ps(sum,sum); /* adds adjacent-two floats */
       }
           _mm_store_ss(&outvector[row],_mm_hadd_ps(sum,sum));
 }

Но это явно не работает.Как мне подойти к этому?

Я должен загрузить 4 за раз ....

Другой вопрос: если мой массив очень большой (скажем, n = 1000), как я могувыровнять 16 байтов?Это вообще возможно?

Brett Hale · Answer 1 · 28 ноября 2011

ОК ... Я буду использовать матричное соглашение строк. Каждая строка [m] требует (2) __m128 элементов, чтобы получить 8 поплавков. Вектор 8x1 v является вектором столбца. Поскольку вы используете инструкцию haddps, я предполагаю, что SSE3 доступен. Нахождение r = [m] * v:

void mul (__m128 r[2], const __m128 m[8][2], const __m128 v[2])
{
    __m128 t0, t1, t2, t3, r0, r1, r2, r3;

    t0 = _mm_mul_ps(m[0][0], v[0]);
    t1 = _mm_mul_ps(m[1][0], v[0]);
    t2 = _mm_mul_ps(m[2][0], v[0]);
    t3 = _mm_mul_ps(m[3][0], v[0]);

    t0 = _mm_hadd_ps(t0, t1);
    t2 = _mm_hadd_ps(t2, t3);
    r0 = _mm_hadd_ps(t0, t2);

    t0 = _mm_mul_ps(m[0][1], v[1]);
    t1 = _mm_mul_ps(m[1][1], v[1]);
    t2 = _mm_mul_ps(m[2][1], v[1]);
    t3 = _mm_mul_ps(m[3][1], v[1]);

    t0 = _mm_hadd_ps(t0, t1);
    t2 = _mm_hadd_ps(t2, t3);
    r1 = _mm_hadd_ps(t0, t2);

    t0 = _mm_mul_ps(m[4][0], v[0]);
    t1 = _mm_mul_ps(m[5][0], v[0]);
    t2 = _mm_mul_ps(m[6][0], v[0]);
    t3 = _mm_mul_ps(m[7][0], v[0]);

    t0 = _mm_hadd_ps(t0, t1);
    t2 = _mm_hadd_ps(t2, t3);
    r2 = _mm_hadd_ps(t0, t2);

    t0 = _mm_mul_ps(m[4][1], v[1]);
    t1 = _mm_mul_ps(m[5][1], v[1]);
    t2 = _mm_mul_ps(m[6][1], v[1]);
    t3 = _mm_mul_ps(m[7][1], v[1]);

    t0 = _mm_hadd_ps(t0, t1);
    t2 = _mm_hadd_ps(t2, t3);
    r3 = _mm_hadd_ps(t0, t2);

    r[0] = _mm_add_ps(r0, r1);
    r[1] = _mm_add_ps(r2, r3);
}

Что касается выравнивания, переменная типа __m128 должна автоматически выравниваться в стеке. С динамической памятью это не безопасное предположение. Некоторые реализации malloc / new могут возвращать только память, гарантированно выровненную по 8 байтов.

Заголовок встроенных функций предоставляет _mm_malloc и _mm_free. В этом случае параметр выравнивания должен быть (16).

Daniel Trebbien · Answer 2 · 27 ноября 2011

Корпорация Intel разработала Small Matrix Library для матриц с размерами от 1 × 1 до 6 × 6.Замечание по применению Потоковые расширения SIMD AP-930 - умножение матриц подробно описывает алгоритм умножения двух матриц 6 × 6.Это должно быть адаптировано к матрицам других размеров с некоторым усилием.

Как мне выполнить матрицу 8x8, используя SSE?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне выполнить матрицу 8x8, используя SSE?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы