Как определить звук наполнителя типа um, uh, et c с помощью cmusphinx / mozilla deepspeech / google stt et c? - PullRequest
0 голосов
/ 10 июля 2020

Я работаю над проектом по распознаванию речи, и задача состоит в том, чтобы обнаружить звуки-наполнители, такие как э-э, э-э и т. Д. c. на аудиоклипах детей / студентов, говорящих на английском языке sh. Их английский язык sh не так хорош.

Как это можно сделать с помощью cmuSphinx / Mozilla Deep Speech / Google Cloud Speech / Kaldi? Или мне нужно начинать с нуля?

Я также пробовал go через другие сообщения и документы о том, как построить ASR, но, поскольку это не долгосрочный проект, у меня нет времени на его потратить построить его с нуля и увидеть результаты. Кроме того, я в порядке с меньшей точностью, которую я могу улучшить позже.

1 Ответ

0 голосов
/ 17 августа 2020

Вы пробовали просто добавить слова-заполнители в свой лексикон? например, словарь произношения CMU содержит эти слова в качестве статей своего опубликованного лексикона ( ССЫЛКА НА ПОЛНЫЙ СЛОВАРЬ )

Например, в словаре произношения CMU есть следующие записи, соответствующие звукам-заполнителям

AH   AA1
HM   HH AH0 M
HMM  HH AH0 M
UH   AH1
UHH  AH1
UM   AH1 M
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...