Есть два образца речи (в формате wav или mp3). Нужно сравнить оба и установить некоторый коэффициент сравнения.
Нужно тренировать произношение, как Розетта Стоун.
Предпочитают libs для .net.
Начните с библиотек System.Speech в .NET Framework: http://msdn.microsoft.com/en-us/library/gg145021.aspx
На этой странице показано, как использовать синтез для произнесения слов и распознавание для прослушивания и распознавания того, что говорит пользователь: http://www.mperfect.net/speechSamples/