Найти дубликаты PDF - PullRequest
       12

Найти дубликаты PDF

4 голосов
/ 03 октября 2010

Я ищу утилиту, которая поможет мне найти дубликаты PDF-файлов.Проблема: у меня есть тысячи файлов PDF.Некоторые являются дубликатами.Их нелегко обнаружить из-за различий в именах файлов и небольших различий в размере файлов.Есть ли утилита / алгоритм / библиотека, которая может помочь мне найти дубликаты или показать файлы, которые очень похожи (или степень различия)?

Ответы [ 5 ]

2 голосов
/ 08 октября 2010

Если файлы были созданы разными инструментами, они могли бы выглядеть одинаково, но генерировать совершенно разные результаты, потому что они структурированы совершенно по-разному. Я сделал несколько предложений в статье блога на https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

1 голос
/ 22 апреля 2013

Проблема пока никак не решена.Что я делаю, это я использую fdupes http://premium.caribe.net/~adrian2/fdupes.html, чтобы найти точные дубликаты.

Но больше всего я использую рабочий процесс, который минимизирует дубликаты.Каждый документ, который входит в мою систему, индексируется с помощью этого написанного мной perl-скрипта: http://seegras.discordia.ch/Programs/fileindex, который помещает некоторое имя и md5-сумму его в ~ / .fileindex.md5 Теперь я могу изменять метаданные локального PDFфайлы или что-то еще (и снова запустите fileindex), и всякий раз, когда я случайно загружаю тот же файл снова, я сохраняю сумму md5 исходного файла и, таким образом, могу определить, является ли он дубликатом.

Также есть * exif-meta и exif-rename на http://seegras.discordia.ch/Programs/, которые помогают с настройкой метаданных PDF и с переименованием PDF-файлов в соответствии с метаданными;и если вы пометите все файлы правильно, вы получите дубликаты имен файлов, указывающие, что они могут быть одним и тем же документом в другом файле.

1 голос
/ 08 октября 2010

Я помню, что есть UNIX-утилита pdf2txt (см. Пакет poppler-utils). Вы можете попытаться извлечь текст из файлов и сделать текстовый diff.

1 голос
/ 04 октября 2010

Создайте хеш MD5 для каждого файла и сохраните его в базе данных.Затем идентичные файлы будут отсортированы рядом друг с другом, или вы сможете быстро найти существующий ключ.

1 голос
/ 03 октября 2010

DiffPDF выглядит как нечто, что может вам помочь.

...