«Голосовой триггер» обнаружение - PullRequest
3 голосов
/ 23 мая 2009

У меня есть голосовое приложение, которое было бы значительно улучшено, если бы была возможность использовать «триггерное слово» для начала записи звука. Мне не нужен полноценный речевой текстовый движок, просто способность надежно / эффективно определять триггерное слово.

Мне интересно, существуют ли какие-либо специализированные речевые движки, которые поддерживают этот конкретный вариант использования, или какие-либо библиотеки / методы для разработки такого специализированного механизма обнаружения. В идеале я бы хотел, чтобы он работал в шумной обстановке, но его можно обучить для голоса одного пользователя.

Также приветствуются указатели на исследовательские работы / темы, поэтому я знаю, о чем просить.

Ответы [ 5 ]

2 голосов
/ 05 сентября 2010

Мой коллега по проекту Red5 создал аналогичную демонстрацию, используя триггерные слова, чтобы запустить поиск в хранилище изображений. Сказав «кот», изображение кота появилось примерно через секунду. Клиентское приложение было написано на Flash, а серверная часть работала на Red5 с использованием бесплатной библиотеки Sphinx. Конечно, вы можете делать то, что вы хотите с Sphinx без особых усилий.
Проект сфинкса: http://cmusphinx.sourceforge.net/sphinx4/

1 голос
/ 23 мая 2009

Хорошо, я могу быть полностью выключен, но использование полнофункциональной библиотеки распознавания речи может оказаться излишним для вашего варианта использования.

Если вы можете жить с чем-то более простым, но все же управляемым аудио, подумайте об этом:

Обнаружение хлопка в ладоши очень просто. Хлопание в ладоши будет иметь высокую энергию по всей звуковой группе. Обнаружение этого является простым и намного более дешевым в вычислительном отношении, чем полное распознавание речи.

В двух словах, вы записываете аудио, выполняете (короткое время) БПФ для данных и обнаруживаете случай, когда у вас высокая энергия в 80% доступных частотных интервалов. 80% решает любые проблемы с фазированием из-за простой настройки комнаты записи / микрофона. Затем настройте порог по вкусу, и все готово.

То же самое можно сделать с распознаванием речи, но вы сожжете тонн циклов ЦП.

0 голосов
/ 05 мая 2010

У меня есть приложение для записи голоса win32. Я использую OCX для управления записью / воспроизведением.

Я знаю, что это не совсем то решение, о котором вы спрашиваете, но вы можете рассмотреть вопрос о педали. Он прост в программировании и будет очень похож на произнесенное слово, чтобы начать / остановить запись. Проверьте это: www.pedalpower.com

Надеюсь, это поможет,

Рейнальдо.

0 голосов
/ 24 мая 2009

Несколько дней назад был задан вопрос о возможностях распознавания речи в linux. То, что вы просите, является подмножеством этого, я предполагаю, что некоторые из этих ответов могут содержать полезную информацию. Статья в ответе Джофоркера была очень интересной.

0 голосов
/ 23 мая 2009

Что за O / S? Интересно, например, поможет ли Речевая функциональность в Windows Vista . Распознавание одного слова кажется самой простой проблемой для любого анализатора речи.

...