Распознавание отдельных голосов - PullRequest
2 голосов
/ 07 мая 2010

Я планирую написать программное обеспечение для анализа разговоров, которое распознает отдельных говорящих, их высоту и интенсивность.Высота и интенсивность немного просты (высота через автокорреляцию).

Как бы я узнал отдельных ораторов, чтобы я мог записать его / ее функции?Будет ли достаточно хранения некоторой эвристики для частот каждого говорящего?Я могу предположить, что только один человек говорит одновременно (строго не перекрывая друг друга).Я также могу предположить, что для обучения каждый оратор может записать данные за минуту до фактического анализа.

Ответы [ 2 ]

2 голосов
/ 21 мая 2010

Высота и интенсивность сами по себе ничего не говорят. Вам действительно нужно проанализировать, как изменяется высота звука . Чтобы идентифицировать разные громкоговорители, необходимо преобразовать речевой звук в какой-то тип feature space, а затем сравнить его с базой данных громкоговорителей в этом пространстве функций. Общий термин, который вы можете использовать в Google: prosody - см., Например, http://en.wikipedia.org/wiki/Prosody_(linguistics). В то время как вы гуглите, вы также можете прочитать о speaker identification aka speaker recognition, см., Например. http://en.wikipedia.org/wiki/Speaker_identification

0 голосов
/ 30 января 2011

Если вы все еще работаете над этим ... Вы используете распознавание речи на входе звука?Потому что, например, Microsoft SAPI предоставляет приложению богатый API для копания в звуковую волну речи, что может сделать проблему распознавания динамиков более доступной.Я думаю, что вы можете получить фонемы в пределах формы волны.Это позволит вам, например, анализировать спектр гласных в спектре мощности, который можно использовать для создания функций, позволяющих различать говорящих.(Прежде чем кто-то начнет бормотать о высоте и громкости, имейте в виду, что кривые формант происходят от формы голосового тракта и довольно независимы от высоты звука, которая является частотой голосового связки, а относительная позиция и относительная амплитуда формант (относительно!) Независимо от общего объема.) Длительность фонемы в контексте также может быть полезной функцией.Распределение энергии во время 'n' звуков может обеспечить функцию 'носа'.И так далее.Просто мысль.Я ожидаю, что буду работать в этой области сам.

...