Вы, вероятно, используете модель "по умолчанию".Это рекомендуется для аудио.Но я узнал (и я был не один), что это не так уж и здорово.Вы лучше используете модель «видео» (это одна из усовершенствованных моделей, требующая регистрации данных).Я предлагаю вам попробовать модель видео, даже если вы транскрибируете только аудио.
Кроме того, если у вас есть общая тема в файлах, которые вы будете транскрибировать, попробуйте добавить некоторые общие фразы для API.Результаты значительно улучшаются и стабилизируются, когда вы это делаете.(ref: SpeechContext )