Я работаю над проектом по распознаванию речи, и задача состоит в том, чтобы обнаружить звуки-наполнители, такие как э-э, э-э и т. Д. c. на аудиоклипах детей / студентов, говорящих на английском языке sh. Их английский язык sh не так хорош.
Как это можно сделать с помощью cmuSphinx / Mozilla Deep Speech / Google Cloud Speech / Kaldi? Или мне нужно начинать с нуля?
Я также пробовал go через другие сообщения и документы о том, как построить ASR, но, поскольку это не долгосрочный проект, у меня нет времени на его потратить построить его с нуля и увидеть результаты. Кроме того, я в порядке с меньшей точностью, которую я могу улучшить позже.