Основным документом по аудиосъемке отпечатков пальцев является работа Haitsma и Kalker в 2002-03 годах.Для каждого кадра аудио он предварительно обрабатывается (различия между временными и частотными диапазонами), а затем сохраняет бинаризованную версию спектра кадра.
Эта процедура повышает надежность.Если весь сигнал сдвинут во времени, он все еще работает (по крайней мере, можно получить нижнюю границу снижения производительности).Это довольно устойчиво к шуму окружающей среды.С момента своего появления было много работ о низком уровне музыкального сходства, поэтому нет однозначного ответа.
У вас есть абсолютно идентичные файлы, то есть сигналы выровнены по времени, битовая глубина одинакова, частота дискретизации одинакова?Тогда я думаю, что хэш, такой как MD5, должен работать.Но если какой-либо из этих параметров будет изменен, то будут и хеши.В таком случае процедура, подобная упомянутой ранее, будет работать лучше.
Ознакомьтесь с материалами ISMIR, доступными бесплатно в Интернете.Прикольные вещи.http://www.ismir.net/