Преобразование речи в текст в Linux - PullRequest
5 голосов
/ 18 января 2009

Я планирую запустить приложение, которое преобразует речь в текст в Linux. Существуют ли какие-либо интерфейсы, чтобы я мог их расширить? или есть ли такое приложение в Linux? Любые входы на это?

РЕДАКТИРОВАТЬ: приложение, которое я планирую написать, должно иметь возможность преобразовывать каждое слово, которое мы говорим, в текст, а не только в Да / Нет.

Ответы [ 4 ]

8 голосов
/ 18 января 2009

Ну, это довольно сложная задача, и, не говоря уже о том, какую технологию вы хотите использовать, вот несколько ссылок:

Удачи. Более подробно мы можем дать лучшие ответы. Например, существует большая разница между распознаванием в стиле центра обработки вызовов "да / нет" и даже частичным пониманием естественного языка.

3 голосов
/ 03 ноября 2009

Julius также является хорошим вариантом для Linux

3 голосов
/ 18 января 2009

Предложения Дейва - отличное начало. Сфинкс очень изящен.

Я просто хочу добавить, что вы должны быть максимально вероятностными. Как одноразовый лингвист и даже более ранний любитель фонологии, я могу с уверенностью сказать, что не увлекайтесь лингвистическими моделями. Давайте не будем забывать о том, что часто ошибочно приписывают «каждый раз, когда я увольняю лингвиста, моя точность повышается». На самом деле речь идет о модели и ее способностях учитывать шум и вариации, а не то, что может сказать специалист по гуманитарным наукам из Массачусетского технологического института.

Хорошая книга, которую можно взять в руки, была бы "Обработка речи и языка" Юрафски и Мартина. Он имеет несколько очень полезных приложений вычислительных моделей для решения этой задачи. Работа Харви Суссмана над линейными коррелятами на склонах F2 для различных гласных (начиная с сов сарая и направляясь к людям), кажется, было бы неплохо внедрить в модель на днях.

1 голос
/ 26 января 2009

Sphinx - ваш лучший выбор на Linux. Я пробовал Сфинкс II и Сфинкс III. Существует несколько доступных языков с открытым исходным кодом и акустических моделей, которые можно использовать с каждой из них. Совсем не производительность на уровне производства, но достаточно хорошая для прототипирования или демонстрации. Для производства вам необходимо разработать свой собственный язык и акустические модели.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...