Я хочу регистрировать события, соответствующие определенному звуку, например, хлопнув дверью машины или, возможно, тостером, извергающим тост.
Система должна быть более сложной, чем «детектор громкого шума»; он должен уметь отличать этот специфический звук от других громких шумов.
Идентификация не обязательно должна иметь нулевую задержку, но процессор должен поддерживать непрерывный поток поступающих данных с постоянно включенного микрофона.
- Является ли эта задача значительно отличающейся от распознавания речи, или я мог бы использовать библиотеки / инструментарии распознавания речи для идентификации этих неречевых звуков?
- Учитывая требование, что мне нужно соответствовать только одному звуку (в отличие от сопоставления среди библиотеки звуков), можно ли выполнить какие-либо специальные оптимизации?
Этот ответ указывает на то, что согласованный фильтр был бы уместен, но я не совсем уверен в деталях. Я не верю, что простая взаимная корреляция данных формы звукового сигнала между образцом целевого звука и потоком микрофона была бы эффективной из-за изменений в целевом звуке.
Мой вопрос также похож на этот , который не привлек к себе большого внимания.