SIMD-векторы не являются простыми целыми числами.Максимальная ширина элемента составляет 64 бита.Они предназначены для параллельной обработки нескольких элементов.
x86 не имеет никаких инструкций для умножения 64x64 => 128-битных SIMD-элементов, даже с AVX512DQ. (Это обеспечивает SIMD 64x64 => 64-битное умножение, хотя, для 2, 4 или 8 элементов параллельно.)
AVX512IFMA (в Каскадном озере) имеет 52-битное высокая и низкая половина умножить-накопить (это не совпадение, это значение и ширина double
; SIMD-команды целочисленного умножения используют то же оборудование умножения, что и FP).
Итакесли бы вы хотели умножить 64x64 => 128-битное SIMD, вам нужно было бы синтезировать его из 4x 32x32 => 64-битного vpmuludq
и некоторых дополнений, включая перенос ширины добавления, который вам снова пришлось бы синтезировать изнесколько инструкций.
Вероятно, это будет медленнее, чем скалярное mul r64
для массива умножений даже при наличии AVX512.Для получения 512 битов результатов умножения требуется всего 4 скалярных mul
инструкции, а современные процессоры x86 полностью конвейеризуют mul
, поэтому они могут выдавать 1 пару результатов за такт.(Конечно, пропускная способность хранилища составляет только 1 за такт до IceLake / Sunny Cove, поэтому получение обеих половин 64-битного сохраненного результата является проблемой! Но перемещение данных в регистры XMM для 128-битных хранилищ стоит больше мопов, а такжеУзкое место на 64-битной частоте.)
Если вам нужно только 64x64 => 64-битное умножение, вы можете опустить умножение high32*high32
.Я написал эту версию на C ++ Самый быстрый способ умножения массива int64_t? , и он чуть быстрее, чем скалярный на Haswell с AVX2, но значительно быстрее на Skylake.В любом случае, без AVX2 это ни к чему не стоило бы.
И, кстати, вам не нужен BMI2 для скалярного умножения 64x64 => 128-битных умножений .
Это базовый показатель для x86-64, с одним операндом mul
(без знака) или imul
(со знаком).Если C # выставляет внутреннюю для BMI2 mulx
, она, безусловно, должна выставлять ее для простых беззнаковых mul
и подписанных imul
, которые по крайней мере какэффективен в большинстве случаев (и меньший размер кода).