Я думаю, что ответ зависит от источника более длинного аудиопотока. Если более длинный поток содержит точное изображение более короткого (например, если он был создан аудиоредактором с доступом к оригиналу), то у вас есть простая проблема поиска строки и существует много ответов, например Boyer-Moore .
Если, однако, оригинал был декодирован и перекодирован (то есть: вы тестируете, чтобы увидеть, использовал ли какой-то парень часть mp3 вашей группы в своем видео на YouTube), тогда у вас гораздо более трудная проблема.
Я бы, вероятно, попытался решить эту проблему в частотной области - сгенерировать «сигнатуру» файла 1 на основе последовательности маленьких окон FFT, а затем выполнить наилучшее сопоставление с FFT из файла 2. Я понятия не имею, насколько хорошо это будет работать.