Если вы все еще работаете над этим ... Вы используете распознавание речи на входе звука?Потому что, например, Microsoft SAPI предоставляет приложению богатый API для копания в звуковую волну речи, что может сделать проблему распознавания динамиков более доступной.Я думаю, что вы можете получить фонемы в пределах формы волны.Это позволит вам, например, анализировать спектр гласных в спектре мощности, который можно использовать для создания функций, позволяющих различать говорящих.(Прежде чем кто-то начнет бормотать о высоте и громкости, имейте в виду, что кривые формант происходят от формы голосового тракта и довольно независимы от высоты звука, которая является частотой голосового связки, а относительная позиция и относительная амплитуда формант (относительно!) Независимо от общего объема.) Длительность фонемы в контексте также может быть полезной функцией.Распределение энергии во время 'n' звуков может обеспечить функцию 'носа'.И так далее.Просто мысль.Я ожидаю, что буду работать в этой области сам.