Microsoft Custom Speech на нескольких языках - PullRequest
0 голосов
/ 06 апреля 2020

Для одного из наших клиентов мы должны создать собственную модель речи для немецкого языка. Существует множество специфических c словарей, и они используют множество идентификаторов, которые обычно состоят из 3 букв. Теперь я столкнулся с 2 проблемами.

1. Обработка сокращений, которые уже имеют предопределенное значение в базовой модели

Я создал файл предложений, который содержит словарь. Файл предложений не содержит сокращений.

При тестировании модели с использованием Azure Speech Evaluator я заметил, что некоторые сокращения уже должны быть включены в базовую модель. Например, KDW распознается как KaDeWe , что является собственным названием торгового центра в Берлине. По этой причине речевой ввод KDW не распознается как KDW .

Решение этой проблемы, вероятно, заключается в добавлении KDW к пользовательскому словарю и обучению модели снова, не так ли? Но может быть больше аббревиатур, таких как KDW из трех букв. Каждое сокращение с предопределенным значением должно быть добавлено в словарь.

Вопрос: есть ли способ исключить некоторые слова из базовой модели? Или есть какой-нибудь способ «переписать» уже известное слово в базовой модели?

Решение этого, вероятно, состоит в том, чтобы добавить KDW к пользовательскому словарю и снова обучить модель, не так ли? не так ли? Но может быть больше аббревиатур, таких как KDW из трех букв. Каждое сокращение с предопределенным значением должно быть добавлено в словарь.

2. Обработка английских sh слов, которые не могут быть распознаны

Вторая проблема заключается в том, что существует несколько английских sh слов, которые модель должна быть в состоянии распознать. Например, engli sh word Dumper всегда распознается как Damper или Dampa или Dampfer , но не как Dumper . Я создал файл произношения для этого слова (и еще немного). Запись для Dumper выглядит следующим образом:

Dumper   Damper

Так что (если я правильно понял документацию), если модель слышит 'Damper', она должна распознавать ее как 'Dumper', которая не работает.

Вопрос: как справиться с этим делом?

Надеюсь, я смог прояснить свои проблемы. Если нет, дайте мне знать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...