Я собираю скрипт для поиска дубликатов удаления в большой библиотеке изображений. На данный момент я делаю двухпроходный фильтр: сначала нахожу файлы одинакового размера, а затем выполняю sha256 для фрагмента файла размером 10240 байт, чтобы получить отпечатки файлов того же размера (код здесь ).
Это работает хорошо, но я предполагаю, что, вероятно, есть контрольные суммы, встроенные в формат jpeg, которые я мог бы использовать вместо того, чтобы делать sha256.
Кто-нибудь знает, существуют ли контрольные суммы или другие компоненты, которые могут действовать как контрольные суммы / отпечатки пальцев? Если да, есть ли эффективный способ доступа к ним?