Я не могу понять, как зарегистрировать незарегистрированный аккаунт, с которым я первоначально разместил.
в любом случае, я не очень интересуюсь аудиоформатом в настоящее время, просто аспект потоковой передачи. я хочу взять микрофонный вход и передать его с iphone на сервер. В настоящее время я не забочусь о скорости передачи данных, так как изначально я просто тестировал соединение Wi-Fi, а не настройку 3G. причина, по которой я не могу это кешировать, заключается в том, что я заинтересован в том, чтобы попробовать некоторые материалы по распознаванию речи с открытым исходным кодом для моей дипломной работы. кэширование и последующая отправка записи возможны, но тогда передача голосовых данных на сервер занимает значительно больше времени. если я могу начать отправку данных, как только я начну запись, тогда время отклика значительно улучшится, потому что к моменту, когда я отпущу кнопку записи, большинство данных уже достигнет сервера. Более того, если я смогу заставить эту потоковую функцию работать с iphone, то на стороне сервера я также могу запустить распознаватель речи, как только прозвучит первый бит звука. опять же, это должно значительно озвучить окончательное количество времени, которое транзакция занимает с точки зрения пользователя.
Колин Барретт упоминает телефоны и телефонные сети, но на самом деле это довольно неоптимальное решение для asr, в основном потому, что они не дают хорошего способа восстановления после ошибок - делать это через диалог voip - ужасный опыт. однако iphone и, в частности, сенсорный экран предоставляют отличный способ сделать это, используя списки ime или nbest для других кандидатов на распознавание.
Если я могу понять базовую архитектуру для потоковой передачи аудио, тогда я могу начать думать о кодировании flac или о чем-то, что уменьшит требуемую скорость передачи. возможно даже извлечение функций, хотя это ограничивает последующую возможность переобучать систему с помощью записей.