Я ищу стратегии, которые можно использовать для программного поиска файлов, которые могут быть дубликатами друг друга. Именно в этом случае видео.
Я не ищу точных совпадений (так хорошо, как это было бы на земле радуг и солнечного света). Я просто собираю пары видео, содержание которых может быть одинаковым, чтобы человек мог сравнить их для подтверждения. Например, один и тот же контент, другое разрешение.
Стратегии, которые я имею до сих пор:
- хеширование
- Сравнение размера файла
- Сравнение длины видео
- Сравнение имен файлов
- Постоянно хранит результаты, чтобы «запомнить» предыдущие дубликаты
- Стратегии смешивания и сопоставления выше
Существуют ли какие-либо стратегии или усовершенствования стратегий, перечисленных выше, о которых вы знаете?
Кто-нибудь знает о каких-либо хэш-функциях, которые создают диапазоны хеширования, чтобы указать, что общее содержимое «близко».