Непрерывное распознавание речи во время пения? - PullRequest
9 голосов
/ 23 августа 2011

Как часть моего приложения я хочу добавить распознавание речи, но не совсем в традиционном смысле.У меня есть несколько текстов песен (разделенных на стихи), которые поются кем-то, и идея состоит в том, чтобы найти, какой стих исполняется в настоящее время, чтобы его можно было отобразить на экране.

Я играл со сфинксоми он подготовил и работает несколько базовых примеров, но, хотя кажется, что есть много документации по регистрации разговорного текста, где вы можете подождать с задержкой и обработать результат, я не могу найти много идей о непрерывном распознавании предложений.Это, конечно, прежде, чем я доберусь до той части, где слова поются и не произносятся!

У кого-нибудь есть опыт с этим, и если да, есть ли где-нибудь, что обеспечит хорошую отправную точку?Или то, чего я пытаюсь добиться, - это слишком амбициозно со сфинксом, и это никогда не будет работать должным образом?Я открыт для просмотра других библиотек, но они должны быть бесплатными, и сфинкс был наиболее широко обсуждаемым из тех, что я мог выкопать.

1 Ответ

3 голосов
/ 14 сентября 2011

Совершенно возможно распознать речь, как только она произносится с небольшой задержкой. Более того, если вы более или менее понимаете, что вы ожидаете получить. Это называется «частичным результатом» и доступно во всех декодерах CMUSphinx через API. По сути, вы можете получить гипотезу в процессе.

Есть небольшая проблема, чтобы рассмотреть, как стабилизировать этот результат (как извлечь его стабильную часть), но этот метод называется обратным отслеживанием и может быть легко реализован

Для пения, учитывая, что музыку можно отфильтровать, это также выполнимо.

...