Question

У меня есть голосовое приложение, которое было бы значительно улучшено, если бы была возможность использовать «триггерное слово» для начала записи звука. Мне не нужен полноценный речевой текстовый движок, просто способность надежно / эффективно определять триггерное слово.

Мне интересно, существуют ли какие-либо специализированные речевые движки, которые поддерживают этот конкретный вариант использования, или какие-либо библиотеки / методы для разработки такого специализированного механизма обнаружения. В идеале я бы хотел, чтобы он работал в шумной обстановке, но его можно обучить для голоса одного пользователя.

Также приветствуются указатели на исследовательские работы / темы, поэтому я знаю, о чем просить.

Paul Gregoire · Answer 1 · 05 сентября 2010

Мой коллега по проекту Red5 создал аналогичную демонстрацию, используя триггерные слова, чтобы запустить поиск в хранилище изображений. Сказав «кот», изображение кота появилось примерно через секунду. Клиентское приложение было написано на Flash, а серверная часть работала на Red5 с использованием бесплатной библиотеки Sphinx. Конечно, вы можете делать то, что вы хотите с Sphinx без особых усилий.
Проект сфинкса: http://cmusphinx.sourceforge.net/sphinx4/

Nils Pipenbrinck · Answer 2 · 23 мая 2009

Хорошо, я могу быть полностью выключен, но использование полнофункциональной библиотеки распознавания речи может оказаться излишним для вашего варианта использования.

Если вы можете жить с чем-то более простым, но все же управляемым аудио, подумайте об этом:

Обнаружение хлопка в ладоши очень просто. Хлопание в ладоши будет иметь высокую энергию по всей звуковой группе. Обнаружение этого является простым и намного более дешевым в вычислительном отношении, чем полное распознавание речи.

В двух словах, вы записываете аудио, выполняете (короткое время) БПФ для данных и обнаруживаете случай, когда у вас высокая энергия в 80% доступных частотных интервалов. 80% решает любые проблемы с фазированием из-за простой настройки комнаты записи / микрофона. Затем настройте порог по вкусу, и все готово.

То же самое можно сделать с распознаванием речи, но вы сожжете тонн циклов ЦП.

reinaldo Crespo · Answer 3 · 05 мая 2010

У меня есть приложение для записи голоса win32. Я использую OCX для управления записью / воспроизведением.

Я знаю, что это не совсем то решение, о котором вы спрашиваете, но вы можете рассмотреть вопрос о педали. Он прост в программировании и будет очень похож на произнесенное слово, чтобы начать / остановить запись. Проверьте это: www.pedalpower.com

Надеюсь, это поможет,

Рейнальдо.

hlovdal · Answer 4 · 24 мая 2009

Несколько дней назад был задан вопрос о возможностях распознавания речи в linux. То, что вы просите, является подмножеством этого, я предполагаю, что некоторые из этих ответов могут содержать полезную информацию. Статья в ответе Джофоркера была очень интересной.

ChrisW · Answer 5 · 23 мая 2009

Что за O / S? Интересно, например, поможет ли Речевая функциональность в Windows Vista . Распознавание одного слова кажется самой простой проблемой для любого анализатора речи.

«Голосовой триггер» обнаружение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

«Голосовой триггер» обнаружение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы