Вопросы с тегом sse

7 голосов

2 ответов

«Безопасная» SIMD-арифметика на выровненных векторах нечетного размера?

Допустим, у меня есть какая-то 16-байтовая выровненная структура, которая просто оборачивает массив...

J. Doe / 08 октября 2019

2 голосов

1 ответ

FASM выровнять 32 секция не выровнена достаточно

я использую FASM, и это моя программа format ELF64 section '.text' executable public func...

Jason / 29 сентября 2019

2 голосов

0 ответов

Есть ли способ автоматически генерировать инструкции MMX (не SSE) с помощью gcc

Похоже, gcc с радостью автоматически векторизует простые примеры и запускает инструкции SSE.Есть ли...

Ant6n / 29 сентября 2019

2 голосов

1 ответ

Как получить gcc для векторизации кода с использованием кодов операций SSE4.1 pminuq / pminud / etc?

Я использовал отличный godbolt.org, чтобы определить, что gcc делает и не векторизует: но я не могу...

nickpelling / 24 сентября 2019

2 голосов

1 ответ

Трансляция слова в регистр xmm

Мне нужно переместить 16-битное слово восемь раз в регистр xmm для операций SSE E. g .: Я бы хотел...

mo_st / 11 июля 2019

3 голосов

1 ответ

Как сохранить 4 32-битных числа в одном 128-битном регистре xmm?

Я хочу сохранить 4 32-битных числа с плавающей запятой в xmm0, где каждое из этих значений с...

pedzer / 05 июля 2019

0 голосов

0 ответов

Нет исключения переполнения для длинного / длинного добавления SSE в C #?

Для кода не-SSE, как было дано в ответе на следующий вопрос ( Нет исключения переполнения для int в...

DragonSpit / 04 июля 2019

3 голосов

1 ответ

C ++ загружает и сохраняет оптимизацию и кучу объектов

Я пытаюсь обернуть голову вокруг доступа к памяти внутренним типам, которые загружены или не...

scx / 23 июня 2019

3 голосов

3 ответов

SIMD для работы с плавающим порогом

Я хотел бы ускорить вычисление векторов, и я считаю, что SIMD-инструкции для сравнения и...

Sindbag / 19 июня 2019

2 голосов

1 ответ

Почему код SIMD длины вектора медленнее, чем простой C

Почему моя функция длины SIMD vector4 в 3 раза медленнее, чем метод длины простого вектора? Функция...

user1679740 / 17 июня 2019

3 голосов

1 ответ

Какова самая быстрая обратная функция _mm_movemask_ps ()?

В Как выполнить инверсию _mm256_movemask_epi8 (VPMOVMSKB)? , OP запрашивает инверсию...

Vortico / 16 июня 2019

2 голосов

1 ответ

почему "+ =" дает мне неожиданный результат в SSE instrinsic

Существует два способа реализации накопления в sse встроенных. Но один из них получает неправильный...

冯剑龙 / 13 июня 2019

4 голосов

1 ответ

Есть ли способ вычесть упакованные беззнаковые двойные слова, насыщенные, на x86, используя MMX / SSE?

Я смотрю на MMX / SSE и мне интересно.Существуют инструкции для упакованного, насыщенного вычитания...

z0rberg's / 10 июня 2019

12 голосов

2 ответов

Самый быстрый способ расширить биты в поле на все (перекрывающиеся + смежные) биты в маске?

Скажем, у меня есть 2 двоичных входа с именами IN и MASK.Фактический размер поля может составлять...

muusbolla / 06 июня 2019

4 голосов

1 ответ

Получить длину строки C 16 или 32-байтового буфера фиксированного размера?(Ширина регистра XMM или YMM)

Есть ли способ получить длину строки ASCII, которая хранится в 16- или 32-байтовом буфере, загрузив...

derik / 05 июня 2019

7 голосов

2 ответов

Как ускорить предварительное умножение альфа-функции с помощью SIMD-инструкций?

Мне нужен совет SSE / AVX по оптимизации подпрограммы, которая предварительно умножает канал RGB с...

Mathieu Garaud / 03 июня 2019

1 голос

2 ответов

Обратный порядок байтов в регистре XMM или YMM?

Допустим, я хочу изменить порядок байтов очень большого байтового массива. Я могу сделать это...

derik / 01 июня 2019

1 голос

0 ответов

Ручная векторизация SIMD в Фортране

Вопрос прост, но я до сих пор не могу найти ответ: Как я могу использовать SIMD Intrinsics в коде...

senseiwa / 27 мая 2019

3 голосов

1 ответ

В чем разница между _mm_movehdup_ps и _mm_shuffle_ps в этом случае?

Если мое понимание верно, _mm_movehdup_ps(a) дает тот же результат, что и _mm_shuffle_ps(a, a,...

ThreeStarProgrammer57 / 21 мая 2019

0 голосов

1 ответ

какая польза от операции МОВМСКБ?

Я хочу спросить, какая польза от операции MOVMSKB? Я пытаюсь найти документацию, но не могу найти...

TIANYANG ZHANG / 16 мая 2019

3 голосов

2 ответов

SSE: shuffle (permutevar) 4x32 целых числа

У меня есть некоторый код, использующий встроенную AVX2 _mm256_permutevar8x32_epi32 aka vpermd для...

John Zwinck / 08 мая 2019

1 голос

1 ответ

Перемещение плавающего слова из четвертого слова с высоким xmm в четвертое слово с низким xmm

MOVHPD извлекает старшее четырехзначное слово регистра xmm в память. PEXTRQ извлекает старшее...

RTC222 / 19 апреля 2019

1 голос

2 ответов

Эффект архитектуры при использовании SSE / AVX Intrinisics

Интересно, как компилятор обрабатывает встроенные функции. Если кто-то использует встроенные...

Royi / 18 апреля 2019

3 голосов

2 ответов

Какой смысл _mm_cmpgt_sd и других подобных методов?

Я искал опцию SIMD для ускорения сравнений и нашел функцию __m128d _mm_cmpgt_sd (__m128d a, __m128d...

Jimbo / 16 апреля 2019

1 голос

1 ответ

как работает инструкция packuswb? (в битовом режиме низкого уровня)

Изучая преобразование ffmpeg из yuv в rgb, я наткнулся на уравнение, реализуемое в ассемблере,...

MaikonNascimento / 16 апреля 2019