Для проверки того же хеша, сгенерированного для того же файла, я скопировал один файл и сохранил в другом месте - он должен быть одинаковым. Я знаю, что офисные файлы ведут себя немного об этом, но могу ли я это сделать?
Мой реальный случай использования> 40 000, где у меня есть дубликаты, основанные на размере файла, дате изменения и имени файла. Там должно быть несколько истинных дубликатов, но я генерирую только отдельные хеш-коды
for file in pathAllCheckSum:
# calculate checksumm
sha256_hash = hashlib.sha256()
with open(p,"rb") as f:
data = f.read(65536)
if not data:
break
md5.update(data)
sha256.update(data)
Я бы ожидал несколько раз один и тот же хеш-код. Влияет ли на это размер буфера (65536)?