строить речь к текстовой системе с нуля, используя python - PullRequest
0 голосов
/ 11 ноября 2019

Мне нужна система «Речь в текст», чтобы я мог преобразовать аудиофайлы в текстовый формат. В ходе исследования я обнаружил системы, созданные крупными компаниями, такими как Amazon Transcribe, Google Speech to Text, IBM Watson и т. Д. И обнаружил, что все библиотеки в Python Internal используют эти API.

Каковы будут шаги, еслиЯ хочу создать такую ​​систему сам? Я не мог найти подробную статью по этому поводу. Как построить собственную систему распознавания речи.

Основная причина, по которой я хочу создать свою собственную систему, заключается в том, что я не могу отправлять аудиофайлы во внешние API из-за соображений безопасности.

Основная цель - у меня есть записи людей, говорящих в основном на английском языке, и я хочу транскрибировать это аудио в текст.

Пожалуйста, дайте мне знать, если у вас есть другие идеи сделать то же самоевместо отправки аудиофайлов во внешние системы.

1 Ответ

0 голосов
/ 12 ноября 2019

Для начала стоит рассмотреть предложения www.voxforge.org ;Просмотрите разделы учебника и форумов, чтобы получить общее представление об использовании проектов с открытым исходным кодом, таких как Julius и CMU Sphinx. Это довольно обширный предмет, и вы обнаружите, что многие люди прошли путь перед вами, поэтому вы можете извлечь уроки из их опыта.

...