Как преобразовать человеческий голос в цифровой формат? - PullRequest
8 голосов
/ 27 февраля 2011

Я работаю над проектом, в котором для защиты системы используется биометрическая система. Мы планируем использовать человеческий голос для защиты системы.

Идея состоит в том, чтобы позволить человеку произнести несколько слов или предложений, и система сохранит этот голос в цифровом формате. В следующий раз, когда человек хочет войти в систему, он / она должен сказать несколько слов, которые могут отличаться или не отличаться от слов, использованных ранее.

Мы не хотим сопоставлять слова, но хотим соответствовать частоте голоса.

Я читал некоторые исследовательские работы, касающиеся этой системы, но в этих документах нет подробностей реализации.

Так что просто хочу узнать, существует ли какое-либо программное обеспечение / API, которое может преобразовывать аналоговый голос в цифровой формат, а также сообщать нам частоту голоса.

До сих пор я работал над обычными веб-приложениями, поэтому я знаю обычные API и платформы, такие как Java EE, C # и т. Д., Но у меня нет опыта работы с такими приложениями.

Пожалуйста, просветите !!!

Ответы [ 3 ]

2 голосов
/ 07 марта 2011

В проекте, подобном этому, я считаю, есть два шага:

Первым шагом будет запись голоса с аналогового входа в цифровой формат (предположим, wav-pcm).Для этого вы можете использовать DirectShow API в C # или стандартный Wav-In, как в этом проекте: http://www.codeproject.com/KB/audio-video/cswavrec.aspx. Вы можете рассмотреть возможность сжатия ваших аудиофайлов позже, для этого есть много вариантов, в Windows вы можете рассмотреть Windows MediaОтформатируйте SDK, чтобы избежать проблем с лицензированием в других форматах.

Вторым шагом является создание или использование инфраструктуры распознавания голоса. Если вы хотите создать инфраструктуру распознавания, вам, вероятно, потребуется определить набор «функций» для вашегоЗвуковые фрагменты и выберите + реализовать алгоритм распознавания.Для этого есть много подходов, IEEE и ACM.org обычно являются хорошими источниками.Если вы хотите использовать существующую платформу, вы можете рассмотреть Nuance Recognizer (коммерческий) или http://cmusphinx.sourceforge.net (с открытым исходным кодом).

Надеюсь, это поможет.

2 голосов
/ 01 марта 2011

Это хорошая отправная точка, как и любая другая: http://marsyas.info/

Это программная среда с открытым исходным кодом для обработки аудио.Они перечислили несколько проектов, которые использовали свои фреймворки по-разному, так что вы, вероятно, могли бы черпать вдохновение из этого.http://marsyas.info/about/projects. Проект Telligence, в частности, кажется наиболее близким к вашим потребностям, поскольку он использовался для гендерной классификации аудио: http://marsyas.info/about/projects#5Teligence

1 голос
/ 01 марта 2011
...