Из вашего описания не совсем понятно, чем вы хотите заниматься.На что похож «специфический» звук?Имеет ли он высокий фоновый шум?Какова определенная узнаваемая особенность (например, высота, ингаляция, тембр ...)?С какими другими «звуками» вы хотите это сравнить?Вы просто хотите сопоставить произвольный спектр звука с "шаблоном звука"?Ваш звук ударный, мелодичный, речь, ...?Это долго, коротко ...?Какой частотный диапазон вы ожидаете, лучшая различимость?Являются ли функции неизменными со временем?
Не существует «общего» решения, которое бы работало для всего.Распознавание речи само по себе довольно сложно и не будет работать хорошо для абстрактных звуков, различимые частоты которых не находятся, например, в полосах MEL.
Итак, в заключение вы оставляете слишком много открытых вопросов, чтобы получить полезный ответ.Единственное предложение, которое я могу сделать, основываясь на немногих данных, заключается в следующем:
For the template sound:
1) Extract spectral peak positions from the power spectrum
2) Measure the standard deviation around the peaks and construct a gaussian from it
3) save the gaussians for later classification
For unkown sounds:
1) Extract spectral peak positions
2) Project those points onto the saved gaussians which leaves you with z-scores of the peak positions
3) With the computed z-scores you should be able to classify your template sound
Примечание. Это очень грубый метод, который различает звуки в соответствии с их наиболее мощными частотами.Использование гауссианов оставляет место для небольших сдвигов в самых мощных частотах.