Я бы предложил использовать немного другую версию:
static const __m128i magicInt = _mm_set1_epi16(0x4B00);
static const __m128 magicFloat = _mm_set1_ps(8388608.0f);
__m128i xlo = _mm_unpacklo_epi16(x, magicInt);
__m128i xhi = _mm_unpackhi_epi16(x, magicInt);
__m128 ylo = _mm_sub_ps(_mm_castsi128_ps(xlo), magicFloat);
__m128 yhi = _mm_sub_ps(_mm_castsi128_ps(xhi), magicFloat);
На уровне сборки единственным отличием от версии Paul R является использование _mm_sub_ps (инструкция SUBPS) вместо _mm_cvtepi32_ps (инструкция CVTDQ2PS). _mm_sub_ps никогда не медленнее, чем _mm_cvtepi32_ps, и на самом деле быстрее на старых процессорах и на процессорах с низким энергопотреблением (читай: Intel Atom и AMD Bobcat)