Как обучить пользовательскую модель речи в когнитивных службах Microsoft Речь в текст - PullRequest
0 голосов
/ 10 октября 2019

Я делаю POC с речью в текст. Мне нужно распознать конкретные слова, такие как «D-STUM» (ежедневная встреча). Проблема в том, что каждый раз, когда я говорю своей программе распознавать «D-STUM», я получаю «Destiny», «This theme» и т. Д.

Я уже заходил на speech.microsoft.com / ... / Customspeech, и Я записал около 40 файлов WAV людей, говорящих "D-STUM" . Я также создал файл с именем «trans.txt», который содержит каждый файл WAV со словом «D-STUM» после каждого файла. Например: D_stum_1.wav D-STUM D_stum_2.wav D-STUM D_stum_3.wav D-STUM D_stum_4.wav D-STUM ...

Затем я загрузил zip-файл, содержащий файлы wav и файл trans.txtфайл, обучить модель с этими данными, и создал конечную точку. Я ссылался на эту конечную точку на моем программном обеспечении и запустил его.

Я ожидаю, что моя обычная речь в текст распознает людей, говорящих "D-STUM" и отображающих "D-STUM" как текст. У меня никогда не отображался «D-STUM» после настройки модели.

Я сделал что-то не так? Это правильный способ сделать индивидуальное обучение? 40 образцов недостаточно, чтобы модель была должным образом обучена?

Спасибо за ваши ответы.

1 Ответ

0 голосов
/ 10 октября 2019

У настраиваемой речи есть несколько способов получить лучшее понимание конкретных слов:

  • Предоставляя аудиосэмпл с их транскрипцией, как вы это сделали
  • Предоставляя образец текста (безaudio)

Исходя из моих предыдущих вариантов использования, я настоятельно рекомендую создать обучающий файл с 5-10 предложениями, каждое из которых содержит "D-STUM" в контексте использования. Затем продублируйте эти предложения, например, от 10 до 20 раз.

Это помогло нам понять конкретные слова.

Кроме того, если вы используете "en-US" или "de-DE""в качестве целевого языка вы можете использовать файл произношения, см. здесь

...