Да, я знаю, что распознавание речи довольно сложно (как преуменьшение).То, что я ищу, - это способ различения возможно 20-30 фраз.Умение разделять слова (хорошо подходит дискретная речь) было бы неплохо, но не обязательно.Программное обеспечение будет зависеть от пользователя (т.е. для использования мной).Я не ищу существующее программное обеспечение, но для хорошего способа сделать это самостоятельно.Я рассмотрел различные существующие методы, и кажется, что разделение звука на фонемы, хотя и распространенное, несколько избыточно для моих нужд.
Для некоторого контекста я просто ищу способ управления некоторыми аспектамимоего компьютера с помощью нескольких простых голосовых команд.Я знаю, что в Windows уже есть программное обеспечение для распознавания речи, но я бы хотел сам заняться этим в качестве учебного упражнения.Команды могут быть такими простыми, как «Открыть Google» или «Отключить звук».Я имел в виду (не уверен, что это хорошая идея), что некоторые команды будут составными.Так что «Mute» будет просто «Mute».Принимая во внимание, что команда «Открыть» может распознаваться по отдельности, а затем иметь свои суффиксы (Google, Photoshop и т. Д.).распознается с другой сетью / моделью / чем угодно.Но я не уверен, что поиск префиксов / разрывов слов таким способом даст лучшие результаты, чем необходимость иметь дело с увеличением числа отдельных команд.
Я изучал персептроны, сети хопфилдов (хотяони несколько устарели от того, что я понимаю) и от HMM, и хотя я понимаю идеи, стоящие за ними (я уже реализовывал ANN), я не знаю, какой из них лучше всего подходит для этой задачи.Я предполагаю, что линейные модели векторного квантования также были бы уместны, но я не могу найти много литературы для этого.Будем весьма благодарны за любые рекомендации / ресурсы.