У вас есть некоторые проблемы: 1. Как записать звук в клиенте.2. Как перенести эти аудио на сервер.3. Как сделать признание.4. Как вернуть обратно оценку признания и доверия.5. Что вы собираетесь делать с этими показателями распознавания и достоверности (ваше приложение).
В первом случае вы можете использовать подход Google, при котором кто-то нажимает на значок микрофона и записывает голос несколько раз.Или iPhone Siri, где для записи звука используется VAD.
Во-вторых, это основная проблема передачи файлов по протоколу TCP / IP.Можно также использовать подход Apple / Google и сжимать аудиофайлы с помощью Flac или Speex.
В-третьих, это действительно сложная часть.Вам нужны гораздо лучшие акустические модели, чем те, которые вы можете получить от Voxforge.Это особенно верно для непрерывного распознавания речи, без контекста, как Сири.Для команд хорошо подходит Voxforge.
В-четвертых, это еще одна проблема передачи файлов.
В-пятых, это ваше приложение.
Сложная часть - это часть распознавания речи.Возможно, другая проблема заключается в том, как масштабировать это для тысяч пользователей.Вы можете использовать распознавание речи Julius в качестве речевого клиента для захвата звука.Мы можем побольше поговорить об этой проблеме в частном порядке.