Проблема пока никак не решена.Что я делаю, это я использую fdupes http://premium.caribe.net/~adrian2/fdupes.html, чтобы найти точные дубликаты.
Но больше всего я использую рабочий процесс, который минимизирует дубликаты.Каждый документ, который входит в мою систему, индексируется с помощью этого написанного мной perl-скрипта: http://seegras.discordia.ch/Programs/fileindex, который помещает некоторое имя и md5-сумму его в ~ / .fileindex.md5 Теперь я могу изменять метаданные локального PDFфайлы или что-то еще (и снова запустите fileindex), и всякий раз, когда я случайно загружаю тот же файл снова, я сохраняю сумму md5 исходного файла и, таким образом, могу определить, является ли он дубликатом.
Также есть * exif-meta и exif-rename на http://seegras.discordia.ch/Programs/, которые помогают с настройкой метаданных PDF и с переименованием PDF-файлов в соответствии с метаданными;и если вы пометите все файлы правильно, вы получите дубликаты имен файлов, указывающие, что они могут быть одним и тем же документом в другом файле.