Вы должны предположить, что GCC не будет автоматически векторизовать ваш код, потому что, похоже, это вряд ли произойдет!
Как сказал Пол, чтобы получить максимальную производительность от вашего iPhone, вы должны написать свой собственный код ARM Assembly, используя инструкции NEON SIMD для максимально возможной его части. Но это предполагает, что вы понимаете язык ассемблера ARM, а также NEON, задержки синхронизации и т. Д. Итак, если вы не хотите изучать язык ассемблера ARM, то среда Apple Accelerate и библиотеки ARMA OpenMAX имеют множество функций, уже написанных на ассемблере ARM язык с инструкциями NEON SIMD.
Так что либо Accelerate, либо OpenMAX должны быть очень хорошими, если вы можете их использовать. Я не сравнивал 2, чтобы увидеть, какой из них на самом деле быстрее, но я предполагаю, что OpenMAX ARM немного быстрее, чем реализация Apple, так как ARM разработал спецификации NEON! Но они оба должны бежать очень быстро.