Вопросы с тегом AVX

0 голосов

0 ответов

SIN / COS / LN ... очень медленно на CLANG по сравнению с MSVC / ICL

Я сейчас снова сравниваю компиляторы.Моя цель - в основном довольно простые циклы DSP с...

Vojtěch Melda Meluzín / 26 сентября 2018

0 голосов

2 ответов

SSE / AVX: выберите один из двух векторов с плавающей запятой __m256 на основе минимального и максимального абсолютного значения для каждого элемента

Я ищу эффективную реализацию AVX (AVX512) // Given float u[8]; float v[8]; // Compute float a[8];...

user2052436 / 20 сентября 2018

0 голосов

1 ответ

Целочисленное умножение AVX2 на 8-битные элементы со знаком и получение 16-битных результатов со знаком?

У меня есть два вектора __m256i, заполненные 32 8-битными целыми числами.Примерно так: __int8 *a0 =...

KaraUL / 17 сентября 2018

0 голосов

1 ответ

Как переместить удвоение в% rax в определенную позицию qword на% ymm или% zmm? (Озеро Кабы или позже)

Идея состоит в том, что я хотел бы собрать возвращенные значения double в векторный регистр для...

sandthorn / 13 сентября 2018

0 голосов

0 ответов

Intel AVX Intrinsics для платформы AARCH64

Я пытаюсь портировать встроенные функции Intel AVX на платформу arm64.Мой код содержит типы...

weegz / 10 сентября 2018

0 голосов

1 ответ

Использование компилятора Intel SVML `__m128 _mm_sincos_ps ()` эффективно

У меня есть простой цикл: for (ii = 0; ii < numRows * numCols; ii++) { mCOmega[ii] =...

Royi / 07 сентября 2018

0 голосов

0 ответов

Intel AVX работает медленнее, чем скалярный код

Я пытаюсь сравнить производительность между скалярным кодом и кодом Intel AVX (SIMD), компилируемым...

P.L / 03 сентября 2018

0 голосов

2 ответов

Выбор между выровненными и не выровненными инструкциями x86 SIMD

Обычно существует два типа SIMD-инструкций: A. Те, которые работают с выровненными адресами памяти,...

MikeF / 03 сентября 2018

0 голосов

2 ответов

Как создать 8-битную маску из lsb значения __m64?

У меня есть случай использования, где у меня есть массив битов, каждый бит представлен как 8-битное...

yadhu / 30 августа 2018

0 голосов

1 ответ

Написание конвейерного оптимизированного кода C AVX в VS 2017

Я пытаюсь написать код C, который маскирует задержку процессора при использовании конвейерной...

IamIC / 27 августа 2018

0 голосов

2 ответов

pycocotools (ядро сброшено). Это проблема AVX?

Я пытаюсь использовать pycocotools из python: $ ipython Python 3.6.5 | packaged by conda-forge |...

Jean-Pat / 27 августа 2018

0 голосов

1 ответ

Что эквивалентно vbroadcastsd для регистров xmm?

Кажется, не существует версии vbroadcastsd, которая использует 64-битный операнд источника памяти с...

BeeOnRope / 24 августа 2018

0 голосов

1 ответ

Задержка и пропускная способность _mm256_setr_epi32 ()

Информация о задержке и пропускной способности _mm256_setr_epi32 () отсутствует в руководстве по...

yatsukino / 05 июля 2018

0 голосов

0 ответов

Любой LogSumExp для Python, реализованный AVX?

Мой проект интенсивно использует logsumexp в алгоритме. В настоящее время я использую эту...

user2131907 / 03 июля 2018

0 голосов

2 ответов

Векторизация с GCC и GFORTRAN

У меня есть тривиальный цикл, который я ожидаю увидеть регистры YMM в сборке, но вижу только XMM...

Morph / 02 июля 2018

0 голосов

1 ответ

Можно ли подсчитать __m256i и сохранить результат в 8 32-битных словах вместо 4 64-битных, используя алгоритм Войцеха Мула?

Недавно я обнаружил, что у AVX2 нет поп-счета для __m256i, и единственный способ сделать что-то...

yatsukino / 29 июня 2018

0 голосов

1 ответ

Что происходит, когда я компилирую на машине, которая поддерживает avx2, и запускаю бинарный файл на другой машине, которая поддерживает только avx?

Я скомпилировал свою программу на С ++ на машине, которая поддерживает avx2 (Intel E5-2643 V3). Он...

werk / 29 июня 2018

0 голосов

1 ответ

Кросс-платформенные вызовы SIMD возможны только с одним исполняемым файлом?

Я недавно заинтересовался оптимизацией SIMD после того, как через некоторое время снова захотел...

Thecheeselover / 27 июня 2018

0 голосов

1 ответ

Как параметр arch используется при компиляции кода в Visual Studio?

Моя цель - разработать код, который компилируется с использованием SIMD-инструкций, когда они...

Jimbo / 13 июня 2018

0 голосов

1 ответ

Почему AVX GCC медленнее, а LLVM быстрее?

Я бы хотел лучше понять, почему два очень похожих фрагмента кода на моем компьютере работают...

Chris Elrod / 08 июня 2018

0 голосов

1 ответ

Собственный сбой из-за невыровненного доступа с MSVC14 и AVX

У меня есть следующий фрагмент кода, который может использовать SIMD.Он прекрасно работает в Linux...

user1134621 / 06 июня 2018

0 голосов

2 ответов

выборочно ксоринг элементов списка с помощью инструкций AVX2

Я хочу ускорить следующую операцию с инструкциями AVX2, но мне не удалось найти способ сделать это....

Ward Beullens / 29 мая 2018

0 голосов

1 ответ

Реализовать triu_indices numpy с помощью avx в c ++

Я хотел бы реализовать numpy.triu_indices (a, 1) (обратите внимание, что вторым аргументом является...

Roy_123 / 25 мая 2018

0 голосов

0 ответов

Самый быстрый способ определить положение SIMD по сравнению регистра

У меня уже есть SIMD сравниваемый регистр __m128i, что приводит к чему-то вроде: 0, 0, -1, -1, 0, 0...

Thorgas / 24 мая 2018

0 голосов

1 ответ

Почему load_ps () работает на одном ПК, а не на другом?

Я написал следующий код для масштабирования набора чисел: #include <stdio.h> #include...

A.SDR / 22 мая 2018