Самое простое решение - комбинация _mm256_cmpgt_epi64
со смесью.Однако, если вы хотите максимум без знака, вам нужно сначала вычесть 1<<63
из каждого элемента (перед сравнением, а не перед смешиванием).Инструкции _mm256_blendv_epu64
нет, но можно использовать _mm256_blendv_epi8
, так как маска будет установлена на каждый бит соответствующих элементов.Также обратите внимание, что вычитание старшего бита может быть выполнено немного быстрее xor
:
__m256i pmax_epu64(__m256i a, __m256i b)
{
__m256i signbit = _mm256_set1_epi64x(0x8000'0000'0000'0000);
__m256i mask = _mm256_cmpgt_epi64(_mm256_xor_si256(a,signbit),_mm256_xor_si256(b,signbit));
return _mm256_blendv_epi8(b,a,mask);
}
На самом деле, clang почти удается получить те же инструкции из вашего кода: https://godbolt.org/z/afhdOa Он использует толькоvblendvpd
вместо vpblendvb
, что может привести к задержкам (подробности см. В комментарии @PeterCordes).
При некотором сдвиге битов вы можете фактически сохранить настройку регистра для знака.Сравнение без знака дает одинаковый результат, если знаки обоих операндов совпадают, и противоположные результаты, если они не совпадают, т.е.
unsigned_greater_than(signed a, signed b) == (a<0) ^ (b<0) ^ (a>b)
. Это можно использовать, если вы используете _mm256_blendv_pd
с некоторым приведением типаa _mm256_blendv_epi64
(поскольку теперь допустим только самый верхний бит):
__m256i _mm256_blendv_epi64(__m256i a, __m256i b, __m256i mask)
{
return _mm256_castpd_si256(_mm256_blendv_pd(
_mm256_castsi256_pd(a),_mm256_castsi256_pd(b),_mm256_castsi256_pd(mask)));
}
__m256i pmax_epu64_b(__m256i a, __m256i b)
{
__m256i opposite_sign = _mm256_xor_si256(a,b);
__m256i mask = _mm256_cmpgt_epi64(a,b);
return _mm256_blendv_epi64(b,a,_mm256_xor_si256(mask, opposite_sign));
}
Просто для справки, максимум со знаком, конечно, просто:
__m256i pmax_epi64(__m256i a, __m256i b)
{
__m256i mask = _mm256_cmpgt_epi64(a,b);
return _mm256_blendv_epi8(b,a,mask);
}