Я использую MS Translator Speech WebSocket API для распознавания и перевода речи в реальном времени.Проблема в том, что иногда распознанный текст не имеет знаков препинания (запятые, точки и т. Д.).Транскрибированный текст выглядит хорошо в противном случае.Я также получаю MP3 с синтезированным переводом.
Это выглядит совершенно случайно, я могу отправлять одно и то же аудио несколько раз, и некоторые ответы имеют знаки препинания, а некоторые нет.Я отправляю аудио в правильном формате и почти в реальном времени, например, отправляю сэмплы 100 мс каждые ~ 100 мс.Признанный язык - испанский.
Это общая проблема или есть какая-то другая проблема?