Как кто-то еще упомянул, вы должны взглянуть на Эйгена, это, вероятно, достаточно хорошо для вас.Но если вам нужна полная производительность (намного лучше, чем 30%, больше, чем 300%), вы должны сами использовать код NEON и убедиться, что весь ваш внутренний цикл полностью написан с помощью NEON (а не кода CPU или VFP).
Если вы просто NEON оптимизируете часть своего цикла вместо всего цикла, вы получите серьезные штрафы, и поэтому код NEON, возможно, всего на 30% быстрее или, возможно, даже медленнее, чем обычный код C.Но полный цикл NEON может дать вам ускорение на 300 - 2000%!
Если вы разрабатываете для ARM Cortex-A9, тогда NEON C Intrinsics должно быть достаточно хорошим, но для устройств ARM Cortex-A8 вы обычнонужен NEON ассемблерный код для полной производительности.Я даю еще немного информации о том, как NEON оптимизировать весь ваш цикл, в "http://www.shervinemami.info/armAssembly.html"