Учитывая ваше уточнение, я думаю, что вы ищете подпадает под алгоритмы распознавания речи .
Даже если вы ищете только меру сходства и не пытаетесь превратить речь в текст, концепции все те же, и я не удивлюсь, если большая часть алгоритмов окажется весьма полезной.
Однако вам придется определить этот коэффициент подобия более формально и точно, чтобы добраться куда угодно.
EDIT:
Я считаю, что алгоритмы распознавания речи были бы полезны, потому что они делают абстракцию звука и сравнение с некоторыми известными формами. Концептуально это может не сильно отличаться от двух записей, их абстрагирования и сравнения.
Из статьи в Википедии о HMM
«В распознавании речи скрытый
Марковская модель выдаст последовательность
n-мерных вещественных векторов
(с n, являющимся маленьким целым числом, таким как
10), выводя один из них каждые 10
миллисекунды. Векторы будут
состоят из кепстральных коэффициентов,
которые получены путем взятия Фурье
преобразование короткого временного окна
речь и декоррелирование спектра
используя косинусное преобразование, затем принимая
первый (самый значительный)
коэффициенты ".
Таким образом, если вы запустите такой алгоритм для обеих записей, вы получите коэффициенты, представляющие записи, и будет гораздо проще измерить и установить сходство между ними.
Но опять-таки, теперь вы подошли к вопросу определения «коэффициента сходства», и введение собак и лошадей не очень помогло.
(Ну, это немного, но с точки зрения оценки алгоритмов и выбора одного из них вам придется работать лучше).