SSE: преобразовать короткое целое в число с плавающей точкой - PullRequest
11 голосов
/ 06 февраля 2012

Я хочу преобразовать массив беззнаковых коротких чисел в плавающее с использованием SSE.Допустим,

__m128i xVal;     // Has 8 16-bit unsigned integers
__m128 y1, y2;    // 2 xmm registers for 8 float values

Я хочу первые 4 uint16 в y1 и следующие 4 uint16 в y2.Нужно знать, какой SSE свойственный использовать.

Ответы [ 2 ]

19 голосов
/ 06 февраля 2012

Вам необходимо сначала распаковать вектор из 8 x 16-битных беззнаковых шорт в два вектора из 32-битных беззнаковых целых, а затем преобразовать каждый из этих векторов в число с плавающей точкой:

__m128i xlo = _mm_unpacklo_epi16(x, _mm_set1_epi16(0));
__m128i xhi = _mm_unpackhi_epi16(x, _mm_set1_epi16(0));
__m128 ylo = _mm_cvtepi32_ps(xlo);
__m128 yhi = _mm_cvtepi32_ps(xhi);
8 голосов
/ 07 февраля 2012

Я бы предложил использовать немного другую версию:

static const __m128i magicInt = _mm_set1_epi16(0x4B00);
static const __m128 magicFloat = _mm_set1_ps(8388608.0f);

__m128i xlo = _mm_unpacklo_epi16(x, magicInt);
__m128i xhi = _mm_unpackhi_epi16(x, magicInt);
__m128 ylo = _mm_sub_ps(_mm_castsi128_ps(xlo), magicFloat);
__m128 yhi = _mm_sub_ps(_mm_castsi128_ps(xhi), magicFloat);

На уровне сборки единственным отличием от версии Paul R является использование _mm_sub_ps (инструкция SUBPS) вместо _mm_cvtepi32_ps (инструкция CVTDQ2PS). _mm_sub_ps никогда не медленнее, чем _mm_cvtepi32_ps, и на самом деле быстрее на старых процессорах и на процессорах с низким энергопотреблением (читай: Intel Atom и AMD Bobcat)

...