Вопросы с тегом AVX2

1 голос

1 ответ

Что теряется при переходе с AVX512 на Intel Xeon Phi на AVX2 на Intel i5-8259U?

Пытаясь пройти курс на Coursera , я попытался оптимизировать пример кода C ++ для моего Intel...

Nanashi No Gombe / 10 июня 2019

0 голосов

1 ответ

векторные инструкции ("vcl" и "ume") для подсчета сортировки

Я пробую векторную инструкцию, используя библиотеки "vcl" и "ume" для своего рода сортировки,...

mimi / 08 июня 2019

2 голосов

1 ответ

Как включить -mavx2 только для определенной части исходного кода?

Могу ли я заставить компилятор компилировать некоторые встроенные функции вне установки -march в...

sandthorn / 05 июня 2019

0 голосов

2 ответов

Ищите функцию, аналогичную _mm256_load_ps, но для указателя на символ

По сути, я хочу выполнить маску AND над массивом байтов.Я знаю, что код будет выглядеть примерно...

Alexander Irribarra / 05 июня 2019

4 голосов

1 ответ

Получить длину строки C 16 или 32-байтового буфера фиксированного размера?(Ширина регистра XMM или YMM)

Есть ли способ получить длину строки ASCII, которая хранится в 16- или 32-байтовом буфере, загрузив...

derik / 05 июня 2019

0 голосов

0 ответов

.NET Оптимизация операций над массивом математических векторов с помощью SIMD

Я разработал игру, в которой периодически добавляются векторы друг к другу. Например: position +=...

Matthias / 04 июня 2019

1 голос

1 ответ

__m256i версия _mm_test_all_zeros

Я знаю, как проверить, все ли регистры _m128i равны нулю с присущей _mm_test_all_zeros. Какая...

Thomas Kejser / 28 мая 2019

2 голосов

1 ответ

Можно ли убедить Clang автоматически векторизовать этот код без использования встроенных функций?

Представьте, что у меня есть эта наивная функция для обнаружения перекрытия сфер.Смысл этого...

Brennan Vincent / 21 мая 2019

6 голосов

1 ответ

Intel IACA анализатор изменяет сборку?

Я хотел запустить какой-то код через анализатор IACA, чтобы увидеть, сколько мопов он использовал -...

Froglegs / 16 мая 2019

5 голосов

1 ответ

Может ли использование AVX2 реализовать более быструю обработку LZCNT для массива слов?

Мне нужно выполнить битовое сканирование в обратном порядке с помощью LZCNT массива слов: 16 битов....

Guy B / 15 мая 2019

3 голосов

1 ответ

Суммирование vec4 [idx [i]] * scalar [i] с векторными регистрами YMM

Я пытаюсь оптимизировать следующее sum{vec4[indexarray[i]] * scalar[i]}, где vec4 - это float[4], а...

Avi Ginsburg / 15 мая 2019

2 голосов

2 ответов

Является ли функция _mm256_store_ps () атомарной?при использовании вместе с OpenMP

Я пытаюсь создать простую программу, которая использует технологию Intel AVX и выполняет умножение...

Pritam Pallab / 02 мая 2019

0 голосов

1 ответ

Когда я проверяю номер цикла модуля, результаты каждого теста совершенно разные。

Когда я проверяю номер цикла модуля, результаты каждого теста совершенно разные？ 1781344-->First...

yueluojieying / 25 апреля 2019

2 голосов

1 ответ

Как эффективно переупорядочить байты вектора __m256i (преобразовать int32_t в uint8_t)?

Мне нужно оптимизировать следующую операцию сжатия (на сервере с доступными инструкциями AVX2):...

Elton / 25 апреля 2019

4 голосов

1 ответ

AVX2 Транспонирование матрицы, представленной 8x __m256i регистрами

Я пытаюсь выяснить, как транспонировать (во встроенных функциях AVX2) прямоугольную матрицу,...

steformicola / 23 апреля 2019

1 голос

1 ответ

AVX2: ошибка сегментации при назначении члена класса __m256i

В настоящее время я занимаюсь рефакторингом императивной программы на C ++, которая широко...

BufferFluffer / 21 апреля 2019

8 голосов

1 ответ

Отключение AVX2 в CPU для тестирования

У меня есть приложение, которое требует, чтобы AVX2 работал правильно.Была реализована проверка для...

Biba / 19 апреля 2019

4 голосов

2 ответов

Есть ли в AVX512 такая функция, как _mm512_sign_epi16 (__m512i a, __m512i b)

Следующая функция, кажется, недоступна на AVX512: __m512i _mm512_sign_epi16 (__m512i a, __m512i b)...

yueluojieying / 18 апреля 2019

5 голосов

1 ответ

Задержка и пропускная способность инструкций AVX2

Меня интересуют рабочие характеристики следующих встроенных функций / инструкций:...

user3234005 / 05 апреля 2019

1 голос

1 ответ

Одна и та же программа AVX2 дает другой результат в gcc и msvc

Я пытаюсь увеличить пропускную способность хеша md5 с помощью AVX2. Я использовал библиотеку...

Nathan S / 03 апреля 2019

0 голосов

0 ответов

Оптимизированный способ выполнения AVX2 VPXOR и popcount за минимальные такты

Мы должны выполнить побитовую операцию XOR для двух массивов, каждый из которых содержит 5...

Muhammad Junaid / 27 марта 2019

1 голос

1 ответ

Xcode Apple Clang включить avx512

В Xcode (Версия 10.1 (10B61)) я использовал макрос, как показано ниже, для определения поддержки...

冯剑龙 / 27 марта 2019

3 голосов

2 ответов

Векторная инструкция Intel для расширения нуля до 8 4-битных значений, упакованных в 32-битное целое число до __m256i?

, как говорится в вопросе, у меня есть обычный int, который состоит из 8 упакованных значений по 4...

Brennan Vincent / 10 марта 2019

0 голосов

2 ответов

Какова связь между AVX и плавающей точкой, и почему AVX используется для вычислений FP?

Я недавно изучал FP и AVX и в Википедии (https://en.wikipedia

Huzama Ahmad / 07 марта 2019

1 голос

1 ответ

Как преобразовать 32-разрядные в 16-разрядные целые числа без знака в AVX2?

Я использую _mm256_cvtps_epi32() для преобразования из 8 float с в 8x32-битные целые числа.Но цель...

Serge Rogatch / 07 марта 2019