Распознавание голоса Java - PullRequest
11 голосов
/ 04 марта 2009

Есть ли кто-нибудь, кто имеет опыт работы с любым открытым исходным кодом или относительно дешевым API распознавания голоса для Java? Я в значительной степени ищу что-то, что превратит произнесенные слова в текст.

Со страницы распознавания речи Java на солнце кажется, что это что-то довольно мертвое. Мои требования - это то, что по крайней мере работает на Linux.

Кто-нибудь может порекомендовать что-нибудь? Чистая Java была бы бонусом, иначе можно было бы рассмотреть решение на основе Linux. И поскольку это домашний проект ... чем дешевле, тем лучше.

  • Редактировать

CMU Sphinx Как отметил Амит, CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Моя проблема - массовая ошибка в словах. Тренировки кажутся самим собой проектом, я надеюсь собрать силы, чтобы попробовать его в эти выходные.

IBM ViaVoice
В 2004 году появились новости о том, что с помощью Voice Voice становится открытым исходным кодом . Похоже, выпуск новостей был преждевременным, и этого никогда не было. В какой-то момент VIA Voice был выпущен для linux , но, похоже, они остановились. Все, что, похоже, осталось на сайте IBM, это ViaVoice встроенный .

IBM Websphere Voice
Я предполагаю, что именно поэтому ViaVoice (рабочий стол) кажется прекращенным. IBM создала это коммерческое решение, которое будет стоить больше, чем рука и нога. И только использование этого займет те, что вы оставили, по крайней мере, после моего опыта работы с Websphere и их IDE.

Nuance
Кажется, они все еще могут создавать продукты для Linux. Но я думаю, что они потерялись и последовали за IBM на рынок серверов. Я не уверен в этом, их сайт не настолько дружелюбен в поиске полезной информации.

Открытый разум / Свободная речь
Эти ребята постоянно меняют название своего проекта. Возможно, компания, которая хочет денег, продолжает угрожать им, но я не знаю. Проект выглядит немного мертвым.

Я мог бы попробовать тренировать Сфинкса в эти выходные, чтобы понять, хочет ли он дружить. В худшем случае я буду использовать речевое решение Microsoft. В прошлом это работало хорошо для меня, но это не очень хорошее решение для Linux. Я мог бы использовать его через Wine, но тогда у меня будет два отдельных сервера ... грязный и грязный.

О, и что кажется хорошим местом для посещения для голоса / речи SpeechTechMag . У них есть «Справочник по годам», в котором есть список компаний, так или иначе относящихся к голосу / речи.

Ответы [ 5 ]

9 голосов
/ 04 марта 2009
3 голосов
/ 26 августа 2009

Сфинкс - безусловно лучший вариант, если у вас ограниченный бюджет. однако это также имеет огромное значение , какие модели вы используете, как вы настраиваете их и , как вы настраиваете свой источник звука. абсолютно все должно совпадать, иначе это просто не будет работать. учитывая проблему, которую вы описали, вы готовы поставить значительную сумму, которую вы получили, вы перепутали свои модели, и ваш микрофон не откалиброван правильно. Кроме того, если у вас есть акцент, он, вероятно, не сработает - это не проблема с декодером, а с акустическими моделями - если никто с голосом / акцентом, подобным вашему, не был включен в данные тренировки, вы получите плохие результаты .

тем не менее, вы смотрели на их странице моделей с открытым исходным кодом?

http://www.speech.cs.cmu.edu/sphinx/models/

В зависимости от того, что вы пытаетесь сделать, вы сможете получить около 90% точности в отношении свободы слова с моделями WSJ 16 кГц и NVG LM с гигавордом. Однако я предупреждаю, что ASR является масштабным мероприятием и еще не достигло товарного статуса.

2 голосов
/ 10 января 2010

вы можете скачать vPass (голосовой пароль) с http://www.basic -signalprocessing.com .

Для (vText) голоса в текст, я могу отправить файл vText.jar на вашу электронную почту. Просьба уведомить enquiry@basic-signalprocessing.com

Компоненты предназначены для языка Java и .Net. Период распознавания составляет 5 секунд. VPass хорошо протестирован, vText - нет, все еще новый, поэтому еще не упакован.

С уважением, Andreas

1 голос
/ 07 января 2010

Моя группа завершила мини-программу на Java для распознавания произносимых цифр, используя Sphinx .

1 голос
/ 05 марта 2009

Я искал то же самое в течение нескольких дней. До сих пор я нашел Sphinx4 и FreeTTS. Обе являются реализациями Java, и Sphinx, кажется, обновляется довольно часто, в отличие от FreeTTS. Единственная проблема, с которой я сталкиваюсь, заключается в том, что у Sphinx возникают проблемы с пониманием меня в офисной среде, и мне нужно решение для складской среды.

...