Question

Я работаю над проектом по распознаванию речи, и задача состоит в том, чтобы обнаружить звуки-наполнители, такие как э-э, э-э и т. Д. c. на аудиоклипах детей / студентов, говорящих на английском языке sh. Их английский язык sh не так хорош.

Как это можно сделать с помощью cmuSphinx / Mozilla Deep Speech / Google Cloud Speech / Kaldi? Или мне нужно начинать с нуля?

Я также пробовал go через другие сообщения и документы о том, как построить ASR, но, поскольку это не долгосрочный проект, у меня нет времени на его потратить построить его с нуля и увидеть результаты. Кроме того, я в порядке с меньшей точностью, которую я могу улучшить позже.

mike gringo · Answer 1 · 17 августа 2020

Вы пробовали просто добавить слова-заполнители в свой лексикон? например, словарь произношения CMU содержит эти слова в качестве статей своего опубликованного лексикона ( ССЫЛКА НА ПОЛНЫЙ СЛОВАРЬ )

Например, в словаре произношения CMU есть следующие записи, соответствующие звукам-заполнителям

AH   AA1
HM   HH AH0 M
HMM  HH AH0 M
UH   AH1
UHH  AH1
UM   AH1 M

Как определить звук наполнителя типа um, uh, et c с помощью cmusphinx / mozilla deepspeech / google stt et c?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как определить звук наполнителя типа um, uh, et c с помощью cmusphinx / mozilla deepspeech / google stt et c?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы