Я занимаюсь поиском музыкальной информации (MIR). Основополагающая статья о музыкальной дактилоскопии принадлежит Хайтсме и Калкеру в 2002-03 гг. Google должен получить это.
Я прочитал раннюю (очень раннюю; до 2000 года) белую книгу о методе Шазама. В этот момент они просто в основном обнаруживали спектрально-временные пики, а затем хэшировали пики. Я уверен, что процедура эволюционировала.
Оба эти метода обращают внимание на музыкальное сходство на уровне сигнала, то есть оно устойчиво к искажениям окружающей среды. Я не думаю, что это работает хорошо для запроса с шумом (QBH). Однако это другая (но связанная) проблема с другими (хотя и связанными) решениями, поэтому вы можете найти решения в литературе. (Слишком много, чтобы назвать здесь.)
Материалы ISMIR свободно доступны в Интернете. Там можно найти ценные вещи: http://www.ismir.net/
Я согласен с использованием существующей библиотеки, такой как Marsyas. Зависит от того, чего вы хотите. Я думаю, что Numpy / Scipy здесь незаменим. Простые вещи можно написать на Python самостоятельно. Черт возьми, если вам нужны такие вещи, как STFT, MFCC, я могу отправить вам код по электронной почте.