При тестировании преобразования речи в текст Microsoft для субтитров видео мы иногда (нечасто) испытываем «пропадание», то есть то, что часть аудио не транскрибируется. В этих случаях мы не получаем ResultReason.NoMatch
.
Код находится в C# с использованием Microsoft.CognitiveServices.Speech (1.10.0). Мы используем OutputFormat.Detailed
, а также speechConfig.RequestWordLevelTimestamps()
, и мы используем AudioConfig.FromWavFileInput
для подачи звука.
У меня есть небольшой пример wav-файла, в котором это можно воспроизвести (по крайней мере, с моим кодом). Кто-нибудь захочет запустить тест со своим кодом, используя тот же файл WAV (https://www.dropbox.com/s/delpix4wwd95iev/svensk.wav?dl=1)? Извините, у меня нет примера на английском языке Engli sh (это Swedi sh audio), но когда я запускаю его, в кодах времени (глядя на метки времени на уровне слова) возникает разрыв между прибл. 14 и 30 секунд в аудио.
Может ли кто-нибудь еще воспроизвести это, или есть какая-то неясная ошибка в моем коде (что довольно близко к примеру кода от MS)?
Заранее спасибо за любой вклад! : -)