Я думаю, у вас есть немного развития, чтобы достичь этого. Концептуально процесс, которому нужно следовать, звучит просто, но для достижения этой цели есть немало работы.
Вы должны разбить файлы на набор сэмплов, с некоторой частотой или частотой, затем выполнить некоторую функцию хеширования в изображениях или сегментах звука, чтобы вы могли затем сравнивать хэши для столкновений и таким образом находить наборы изображений, которые являются одинаковыми или набор звуковых образцов, которые присутствуют в обоих потоках.
Для аудио вы можете использовать NAudio или DirectX для декодирования потока. Для видео вы можете посмотреть любую библиотеку, которая может декодировать видеофайл в отдельные изображения, например, Directshow.