Ваш вопрос может быть разбит на следующие задачи: (1) Дать аудио, получить расшифровку (2) Дать текст, извлечь различные функции (разбить на предложения, часть речи, сущности, чувства и многое другое).
Чтобы ответить на этот широкий вопрос, нужно также рассмотреть вопрос о том, какова цель: общий ли это интерес в течение 2-3 часов, более крупный проект с некоторым результатом или, возможно, более поздняя смена карьеры.К сожалению, карьера в этой области может сильно отличаться от изучения основ развлечения.Зачем?потому что современные системы довольно сложны (Alexa, Siri, OK google), и невозможно создать профессиональную систему с нуля, чтобы увидеть общую картину.Таким образом, разные части этих огромных проектов во многом отличаются друг от друга.
Однако есть два «непосредственных подозреваемых», для которых язык программирования специализируется на этих областях.Первым был бы Python, потому что большинство современных пакетов для глубокого обучения (современный уровень обработки сигналов и NLP - обработка на естественном языке) имеют интерфейс с Python - так что если вы знаете Python на достойном уровне, вы можете использовать наиболее доступныесистемы, такие как:
(1) API распознавания речи Google
(2) Watson - IBM API
(3) CMU Sphinx
Другой 'непосредственный подозрение - это язык C. Это потому, что большинство систем построено на C, поэтому, если вы действительно хотите создать что-то с нуля, чтобы понять, как это действительно работает - вы, вероятно, хотите C. Но вряд ли вы получитедо сопоставимого уровня, потому что все современные проекты огромны и сложны