Очень низкая точность при использовании открытых ушей для распознавания речи - PullRequest
10 голосов
/ 15 сентября 2011

Я использую открытые уши для распознавания речи в моем приложении. Основной проблемой является точность. В спокойной обстановке точность составляет около 50%, но в шумной обстановке дела идут хуже. Почти ничего не распознается правильно. Я использую файл словаря около 300 слов в настоящее время. Какие области я должен искать, чтобы улучшить точность? До сих пор я не делал никаких изменений в этом.

1 Ответ

17 голосов
/ 16 сентября 2011

Разработка приложений распознавания речи требует от вас понимания некоторых основных концепций распознавания речи, таких как акустическая модель, грамматика и фонетический словарь. Вы можете узнать больше из учебника CMUSphinx http://cmusphinx.sourceforge.net/wiki/tutorial

Плохая точность - нормальное состояние разработки речевого приложения, есть процесс, который вы можете использовать, чтобы улучшить его и сделать приложение полезным. Процесс следующий:

  1. Соберите образцы речи, которые вы пытаетесь распознать, и создайте базу данных речи, чтобы измерить текущую точность и понять проблемы, стоящие за ней

  2. Попробуйте поиграть с размером словарного запаса, чтобы улучшить разделение между голосовые подсказки. Например, словарь из 10 команд намного легче распознать, чем словарь из 300 команд.

  3. Создайте свое приложение так, чтобы количество вариантов распознавалось меньше, а ответы людей просты. Это мероприятие называется VUI (голосовой дизайн пользовательского интерфейса), и это довольно большая область со множеством блестящих книг и статей в блогах. Вы можете найти некоторые детали здесь: http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765

  4. Попробуйте улучшить акустическую часть вашего приложения. Измените словарь, чтобы соответствовать вашей речи. Адаптируйте акустическую модель в соответствии с акустическими свойствами. См. http://cmusphinx.sourceforge.net/wiki/tutorialadapt для описания процесса адаптации акустической модели.

...