Вы не должны обращаться к памяти через ARM, пока NEON выполняет свою работу.Это приводит к полной остановке NEON.
По-видимому, вы пытаетесь выполнить какую-то параллельную обработку, которая разрушительна по вышеуказанной причине.
Кроме того, слишком много ldrb.Байт-доступ в ARM также является почти грехом.
Я предлагаю сначала полностью переписать свой код на C, используя только 32-битный доступ к памяти, а затем оценить, предназначен ли он вообще для NEON,