Для одного из наших клиентов мы должны создать собственную модель речи для немецкого языка. Существует множество специфических c словарей, и они используют множество идентификаторов, которые обычно состоят из 3 букв. Теперь я столкнулся с 2 проблемами.
1. Обработка сокращений, которые уже имеют предопределенное значение в базовой модели
Я создал файл предложений, который содержит словарь. Файл предложений не содержит сокращений.
При тестировании модели с использованием Azure Speech Evaluator я заметил, что некоторые сокращения уже должны быть включены в базовую модель. Например, KDW распознается как KaDeWe , что является собственным названием торгового центра в Берлине. По этой причине речевой ввод KDW не распознается как KDW .
Решение этой проблемы, вероятно, заключается в добавлении KDW к пользовательскому словарю и обучению модели снова, не так ли? Но может быть больше аббревиатур, таких как KDW из трех букв. Каждое сокращение с предопределенным значением должно быть добавлено в словарь.
Вопрос: есть ли способ исключить некоторые слова из базовой модели? Или есть какой-нибудь способ «переписать» уже известное слово в базовой модели?
Решение этого, вероятно, состоит в том, чтобы добавить KDW к пользовательскому словарю и снова обучить модель, не так ли? не так ли? Но может быть больше аббревиатур, таких как KDW из трех букв. Каждое сокращение с предопределенным значением должно быть добавлено в словарь.
2. Обработка английских sh слов, которые не могут быть распознаны
Вторая проблема заключается в том, что существует несколько английских sh слов, которые модель должна быть в состоянии распознать. Например, engli sh word Dumper всегда распознается как Damper или Dampa или Dampfer , но не как Dumper . Я создал файл произношения для этого слова (и еще немного). Запись для Dumper выглядит следующим образом:
Dumper Damper
Так что (если я правильно понял документацию), если модель слышит 'Damper', она должна распознавать ее как 'Dumper', которая не работает.
Вопрос: как справиться с этим делом?
Надеюсь, я смог прояснить свои проблемы. Если нет, дайте мне знать.