операции с единичной матрицей
Intel Skylake имеет значительно лучшую пропускную способность FMA (2 на тактовый 256-битный вектор), чем Ryzen (2 на тактовый 128-битный вектор или 1 на тактовую 256-битовый вектор).См. https://agner.org/optimize/ для деталей микроархива x86.И FLOPS за цикл для Sandy-Bridge и haswell SSE2 / AVX / AVX2 для сводки, включающей Ryzen.
С горячими данными в кеше, чего может оптимизировать хорошо оптимизированная матрица с помощью кеш-памятиблокировка, хороший бред может стать узким местом в пропускной способности исполнительного блока FMA.
Или пропускная способность загрузки / хранения L1d SIMD, где Skylake> 2x Ryzen, способный выдерживать почти 2x 256-битную загрузку + 1x 256-битное хранилищев то время как Ryzen может поддерживать 2x 128-битный доступ к кешу, один из которых может быть хранилищем.
Так что для однопоточной или для каждого ядра пропускная способность Intel вполне разумна в два раза больше, чем дляЯдро Ryzen, для пропускной способности matmul / FMA .
Вы многопоточны, чтобы использовать преимущества всех ядер на каждой машине? 2700x - это 8-ядерный процессор , а 6820HQ - это 4-ядерный чип .
Если ваша рабочая нагрузка может использовать преимущества нескольких ядер, то, возможно, этоограничение пропускной способности кэша L3, которое имеет значение, при условии, что они оба настроены правильно и фактически работают на частоте 3,6 / 3,7 ГГц.Или, может быть, что-то создает разницу в 4 раза на ядро.