Мне нужна система «Речь в текст», чтобы я мог преобразовать аудиофайлы в текстовый формат. В ходе исследования я обнаружил системы, созданные крупными компаниями, такими как Amazon Transcribe, Google Speech to Text, IBM Watson и т. Д. И обнаружил, что все библиотеки в Python Internal используют эти API.
Каковы будут шаги, еслиЯ хочу создать такую систему сам? Я не мог найти подробную статью по этому поводу. Как построить собственную систему распознавания речи.
Основная причина, по которой я хочу создать свою собственную систему, заключается в том, что я не могу отправлять аудиофайлы во внешние API из-за соображений безопасности.
Основная цель - у меня есть записи людей, говорящих в основном на английском языке, и я хочу транскрибировать это аудио в текст.
Пожалуйста, дайте мне знать, если у вас есть другие идеи сделать то же самоевместо отправки аудиофайлов во внешние системы.