простые методы распознавания речи - PullRequest
3 голосов
/ 12 декабря 2011

Да, я знаю, что распознавание речи довольно сложно (как преуменьшение).То, что я ищу, - это способ различения возможно 20-30 фраз.Умение разделять слова (хорошо подходит дискретная речь) было бы неплохо, но не обязательно.Программное обеспечение будет зависеть от пользователя (т.е. для использования мной).Я не ищу существующее программное обеспечение, но для хорошего способа сделать это самостоятельно.Я рассмотрел различные существующие методы, и кажется, что разделение звука на фонемы, хотя и распространенное, несколько избыточно для моих нужд.

Для некоторого контекста я просто ищу способ управления некоторыми аспектамимоего компьютера с помощью нескольких простых голосовых команд.Я знаю, что в Windows уже есть программное обеспечение для распознавания речи, но я бы хотел сам заняться этим в качестве учебного упражнения.Команды могут быть такими простыми, как «Открыть Google» или «Отключить звук».Я имел в виду (не уверен, что это хорошая идея), что некоторые команды будут составными.Так что «Mute» будет просто «Mute».Принимая во внимание, что команда «Открыть» может распознаваться по отдельности, а затем иметь свои суффиксы (Google, Photoshop и т. Д.).распознается с другой сетью / моделью / чем угодно.Но я не уверен, что поиск префиксов / разрывов слов таким способом даст лучшие результаты, чем необходимость иметь дело с увеличением числа отдельных команд.

Я изучал персептроны, сети хопфилдов (хотяони несколько устарели от того, что я понимаю) и от HMM, и хотя я понимаю идеи, стоящие за ними (я уже реализовывал ANN), я не знаю, какой из них лучше всего подходит для этой задачи.Я предполагаю, что линейные модели векторного квантования также были бы уместны, но я не могу найти много литературы для этого.Будем весьма благодарны за любые рекомендации / ресурсы.

Ответы [ 2 ]

2 голосов
/ 20 декабря 2011

Некоторое время назад я прочитал технический документ об ограниченной словарной системе, в которой использовался простой процесс распознавания.Система делит каждое высказывание на небольшое количество бинов (6 по времени и 4 по величине, если я правильно помню, всего 24), и все, что она делает, - это подсчитывает количество выборочных измерений звука в каждом бине.Была база правил нечеткой логики, которая затем интерпретировала каждое высказывание по 24 бинам и генерировала интерпретацию.

Я полагаю, что (для некоторых приложений) простой процесс сопоставления может работать так же хорошо, в котором 24 бинаподсчет текущего высказывания просто сопоставляется со счетом каждого из ваших сохраненных прототипов, и победителем будет тот, у кого наименьшая общая разница.

2 голосов
/ 12 декабря 2011

Существует несколько проектов с открытым исходным кодом для распознавания речи:

  1. HTK (Hidden Markov Models Toolkit)
  2. Sphinx

Оба имеют наборы инструментов для декодирования, обучения и языковой модели. Все для создания полного и надежного распознавателя речи. Voxforge предлагает акустические и языковые модели для обоих инструментов с открытым исходным кодом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...