Сравнить TIF файл из страниц PDF - PullRequest
0 голосов
/ 31 января 2020

У меня есть PDF-файл с 500 страницами с большим количеством дубликатов. До того, как я сделал PNG Thumbnails, я сделал MD5-хэш, чтобы сравнить все. Это работало нормально. Теперь я больше не использую пиктограммы png, а tif-файлы, потому что мне нужно использовать "tiffsep", чтобы удалить некоторые пятна. Если я сравниваю хэши tif-файлов или даже хэши png-файлов, которые я сделал из tif-файлов, то они совершенно разные, даже если визуально они совпадают.

Я пытался удалить поле datetime и пейджинговая информация из метаданных tiff, но она все та же.

Что я могу сделать? Вот код, как генерируются эскизы inputpdf = PdfFileReader(path) count_pages = inputpdf.getNumPages() command = "gs -sDEVICE=tiffsep -dNoSeparationFiles -dLastPage="+str(count_pages)+" -sOutputFile="/home..../page_%d.tif" subprocess.Popen(command,shell=True,stdin....)

1 Ответ

0 голосов
/ 10 февраля 2020

Решил проблему.

Сначала я сделал Tiff-Files, чтобы исключить плашечные цвета. Затем мне пришлось конвертировать в JPG и затем создавать хэши. Хеши PNG из Tiffs не были одинаковыми.

...