Это зависит от архитектуры. На данный момент я предполагаю архитектуру x86 (также известную как SSE).
Вы можете легко получить четвертый фактор в тесных циклах.Просто замените свою существующую математику инструкцией SSE, и все готово.
Вы даже можете получить немного больше этого, потому что, если вы используете SSE, вы делаете математику в регистрах, которые обычно не используются компилятором.Это освобождает регистр общего назначения для других задач, таких как управление циклом и вычисление адреса.Короче говоря, код, который окружает инструкцию SSE, будет более компактным и будет выполняться быстрее.
И затем есть возможность подсказывать контроллеру памяти, как вы хотите получить доступ к памяти, например, хотите ли вы хранить данные таким образом, чтобы они обходили кеш или нет.Для алгоритмов, требующих пропускной способности, которые могут дать вам дополнительную скорость в этом случае.