Вообще говоря, это инструкции с квадратным корнем и делением, особенно для скалярного конвейера с плавающей запятой.
В частности, для IA-32 и IA-64 вы можете обратиться к Справочному руководству по оптимизации архитектур Intel (R) IA-64 и IA-32 , в котором имеется счетчик циклов для каждой инструкции на разных процессорах в Приложении C. Вы увидите, что эквивалентные инструкции SIMD работают намного лучше при меньших затратах и работают с 4 элементами одновременно. Если вам нужна большая точность для квадратного корня и обратного квадратного корня, вам придется сделать это вручную с дополнительным шагом Ньютона-Рафсона.