Question

В наших текущих экспериментах с транскрибированием видеоматериалов с использованием различных поставщиков преобразования речи в текст Microsoft, похоже, является сильным соперником в отношении фактического распознавания слов. Для материалов Engli sh форматирование / пунктуация также довольно хорош, но для материалов на норвежском языке (что наиболее актуально для нас) вряд ли есть какое-либо форматирование / пунктуация вообще. Мы используем C# API SpeechRecognizer, где config.SpeechRecognitionLanguage имеет значение "nb-NO", config.OutputFormat имеет значение OutputFormat.Detailed и используется config.RequestWordLevelTimestamps (). Есть ли что-то, что мы можем сделать для улучшения форматирования результатов?

Кроме того, при извлечении отдельных слов с метками времени (что является одним из наших требований) нет форматирования даже с материалами Engli sh. Есть ли какая-нибудь опция, которую мы можем установить для сохранения форматирования / пунктуации при извлечении отдельных слов?

С наилучшими пожеланиями, Гуннар

Heidi Z. · Answer 1 · 31 января 2020

Поддержка форматирования речи Microsoft для результатов nb-NO действительно очень проста c на данный момент. Результаты отображения имеют базовое c числовое форматирование и явную пунктуацию по запросу. Microsoft речь активно работает над улучшением автоматики c пунктуации и заглавных букв, чтобы улучшить результаты. Что касается временных меток, в настоящее время он не производит временные метки для уровня отображения. Это может быть поддержано в будущем.

Форматирование результатов распознавания речи Microsoft (норвежский)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Форматирование результатов распознавания речи Microsoft (норвежский)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы