Существует два способа приведения в AVX2:
__m256i b = ...set register...
auto c = (__m256d)b; // version 1
auto d = _mm256_castsi256_pd(b); // version 2
Я предполагаю, что оба они должны давать одинаковые результаты. В официальном руководстве от Intel говорится, что для версии 2 существует нулевая задержка времени выполнения. Можно ли использовать версию 1 с предположением о нулевой задержке? Кроме того, я могу предположить, что приведение от любого к любому типу регистра с версией 1 имеет нулевую задержку.