Question

Я ищу утилиту, которая поможет мне найти дубликаты PDF-файлов.Проблема: у меня есть тысячи файлов PDF.Некоторые являются дубликатами.Их нелегко обнаружить из-за различий в именах файлов и небольших различий в размере файлов.Есть ли утилита / алгоритм / библиотека, которая может помочь мне найти дубликаты или показать файлы, которые очень похожи (или степень различия)?

mark stephens · Answer 1 · 08 октября 2010

Если файлы были созданы разными инструментами, они могли бы выглядеть одинаково, но генерировать совершенно разные результаты, потому что они структурированы совершенно по-разному. Я сделал несколько предложений в статье блога на https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

Seegras · Answer 2 · 22 апреля 2013

Проблема пока никак не решена.Что я делаю, это я использую fdupes http://premium.caribe.net/~adrian2/fdupes.html, чтобы найти точные дубликаты.

Но больше всего я использую рабочий процесс, который минимизирует дубликаты.Каждый документ, который входит в мою систему, индексируется с помощью этого написанного мной perl-скрипта: http://seegras.discordia.ch/Programs/fileindex, который помещает некоторое имя и md5-сумму его в ~ / .fileindex.md5 Теперь я могу изменять метаданные локального PDFфайлы или что-то еще (и снова запустите fileindex), и всякий раз, когда я случайно загружаю тот же файл снова, я сохраняю сумму md5 исходного файла и, таким образом, могу определить, является ли он дубликатом.

Также есть * exif-meta и exif-rename на http://seegras.discordia.ch/Programs/, которые помогают с настройкой метаданных PDF и с переименованием PDF-файлов в соответствии с метаданными;и если вы пометите все файлы правильно, вы получите дубликаты имен файлов, указывающие, что они могут быть одним и тем же документом в другом файле.

Luca Martini · Answer 3 · 08 октября 2010

Я помню, что есть UNIX-утилита pdf2txt (см. Пакет poppler-utils). Вы можете попытаться извлечь текст из файлов и сделать текстовый diff.

Jaydee · Answer 4 · 04 октября 2010

Создайте хеш MD5 для каждого файла и сохраните его в базе данных.Затем идентичные файлы будут отсортированы рядом друг с другом, или вы сможете быстро найти существующий ключ.

Найти дубликаты PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найти дубликаты PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы