Это в значительной степени зависит от того, какую речь вы хотите распознать по сравнению с тем, что вы не делаете, и от желаемой частоты ошибок.
Если вы хотите распознать только одно слово от известного пользователя, в противном случае молчание с точностью чуть выше 50%, возможно, вы сможете разработать или найти некую «низкую сложность» структуру с использованием обнаружения уровня звука и / или звука снятие отпечатков пальцев.
Для непрерывного распознавания речи в очень большом словаре от неизвестного пользователя с неизвестным акцентом или диалектом со степенью точности 99,9% вы вряд ли найдете что-либо даже при использовании обработки на стороне сервера.
Для чего-то промежуточного, вы можете захотеть взглянуть на использование CPU Pocketsphinx в сборке Android NDK. Но я не уверен, будет ли кто-то называть вычислительную сложность этой «низкой» достаточной, или степень точности, достаточную для их целей.