Я предполагаю, что путь наименьшего сопротивления в этом случае заключается в использовании сторонней библиотеки распознавания звука в сочетании с языком высокого уровня (например, Java или одним из языков семейства .NET, таким как C # или VB). NET).
Вы можете начать с некоторых исследований в области Цифровая обработка звука и Распознавание звука.
Когда вы найдете библиотеку или фреймворк, в котором есть интересующие вас возможности и привязки на выбранном вами языке, начните использовать его.
См. MARF (библиотека Java) и, возможно, работа Microsoft в этой области с пространством имен System.Speech.Recognition (которое, если я правильно помню, было интегрировано с более новой Windows операционные системы)
РЕДАКТИРОВАТЬ - Настольный ПК или Запуск из Интернета
В комментариях, которые вы спрашивали об использовании Flash или Silverlight, чтобы ваше решение могло работать как на рабочем столе, так и в Интернете.
Прежде всего, я хотел бы отметить, что Flash и Silverlight фактически работают на клиентском компьютере. Разница в том, что они запускаются в контексте веб-браузера, и пользователю не нужно устанавливать приложение. В противном случае они не сильно отличаются от настольных приложений, и пользователю, очевидно, необходимо установить плагин Flash of Silverlight для своего браузера.
Если это то, что вам нужно (т. Е. Пользователю не нужно устанавливать приложение), тогда вы можете взглянуть на Flash, Silverlight или Java Web Start . На самом деле JAVA Web Start, вероятно, будет хорошим кандидатом, потому что вы можете использовать MARF framework .
Однако, если вы решили использовать Flash, Silverlight или Java Web Start, есть некоторые проблемы с безопасностью, с которыми вам, возможно, придется столкнуться, поскольку доступ к ресурсам клиентской системы обязательно требует некоторых привилегий, которые большинство "веб-приложений" обычно не требуется.