У меня есть PDF-файл с 500 страницами с большим количеством дубликатов. До того, как я сделал PNG Thumbnails, я сделал MD5-хэш, чтобы сравнить все. Это работало нормально. Теперь я больше не использую пиктограммы png, а tif-файлы, потому что мне нужно использовать "tiffsep", чтобы удалить некоторые пятна. Если я сравниваю хэши tif-файлов или даже хэши png-файлов, которые я сделал из tif-файлов, то они совершенно разные, даже если визуально они совпадают.
Я пытался удалить поле datetime и пейджинговая информация из метаданных tiff, но она все та же.
Что я могу сделать? Вот код, как генерируются эскизы inputpdf = PdfFileReader(path)
count_pages = inputpdf.getNumPages()
command = "gs -sDEVICE=tiffsep -dNoSeparationFiles -dLastPage="+str(count_pages)+" -sOutputFile="/home..../page_%d.tif"
subprocess.Popen(command,shell=True,stdin....)