Используйте режимы Flush-to-zero и Denormals-are-zero: они предназначены для скорости с высокой точностью, которую вы, вероятно, не заметите.
Я сомневаюсь, что разные режимы округления имеют разные затраты. С округлением до ближайшего сложнее всего в теории, но в аппаратной реализации я бы предположил, что дополнительные транзисторы, которые делают это за такое же число циклов, вероятно, в любом случае существуют и просто не используются для направленного округления.
Сигнальные NaN не замедляют вычисления не-NaN.
Установите слово управляющих флагов только один раз перед вычислением: изменение его во время вычисления затмит любую экономию, которую вы достигнете.