Microsoft Speech-to-Text: отсутствует часть стенограммы - PullRequest
0 голосов
/ 27 марта 2020

При тестировании преобразования речи в текст Microsoft для субтитров видео мы иногда (нечасто) испытываем «пропадание», то есть то, что часть аудио не транскрибируется. В этих случаях мы не получаем ResultReason.NoMatch.

Код находится в C# с использованием Microsoft.CognitiveServices.Speech (1.10.0). Мы используем OutputFormat.Detailed, а также speechConfig.RequestWordLevelTimestamps(), и мы используем AudioConfig.FromWavFileInput для подачи звука.

У меня есть небольшой пример wav-файла, в котором это можно воспроизвести (по крайней мере, с моим кодом). Кто-нибудь захочет запустить тест со своим кодом, используя тот же файл WAV (https://www.dropbox.com/s/delpix4wwd95iev/svensk.wav?dl=1)? Извините, у меня нет примера на английском языке Engli sh (это Swedi sh audio), но когда я запускаю его, в кодах времени (глядя на метки времени на уровне слова) возникает разрыв между прибл. 14 и 30 секунд в аудио.

Может ли кто-нибудь еще воспроизвести это, или есть какая-то неясная ошибка в моем коде (что довольно близко к примеру кода от MS)?

Заранее спасибо за любой вклад! : -)

Ответы [ 2 ]

1 голос
/ 06 апреля 2020

Речевая группа времени выполнения определила причину проблемы. Это связано с неправильным использованием параметра декодера. Мы развернем исправление в сервисе в течение нескольких дней.

-Wei

1 голос
/ 01 апреля 2020

Я скачал аудио файл и воспроизвел ту же проблему. Результаты распознавания звука от 14 до 30 секунд отсутствуют. Я собираюсь переслать это связанной группе, чтобы взглянуть на это. Я вернусь к этой теме, как только услышу что-то.

Извините за поздний ответ и спасибо за использование Microsoft Cognitive Services Speech SDK!

-Wei

...