Алгоритмы дедупликации данных - PullRequest
2 голосов
/ 19 июня 2009

Я хотел бы найти алгоритмы дедупликации данных, в основном, чтобы найти дубликаты файлов. Похоже, что первым шагом является идентификация файлов с одинаковыми временными метками, размерами и именами файлов. Я могу сделать контрольную сумму MD5 для этих файлов и сравнить. В дополнение к этому можно сравнить содержимое файлов. Что еще я должен смотреть?

Ответы [ 3 ]

2 голосов
/ 19 июня 2009

У вас есть метаинформация ОС (размер и временные метки). Другая мета-информация включает в себя разрешения. Вы можете сравнить информацию inode и dnode, но это мало что значит.

У вас есть сводка (контрольная сумма).

У вас есть побайтовые данные.

Что еще может быть? Вы просите другие резюме? Сводка менее информативна, чем побайтные подробности. Но вы можете легко изобрести множество других резюме. Сводка полезна только в том случае, если вы сохраняете ее где-то, чтобы не пересчитывать ее постоянно.

Если вы хотите сохранить сводки для «основной» копии, вы можете придумать любой вид сводки, который вы хотите. Количество строк, буква «е», средняя длина строки, все, что может быть интересным резюме.

1 голос
/ 19 июня 2009

Для этого есть продукты. Ищите дубликат файла детектива. Может совпадать по имени, метке времени, md5 и другим алгоритмам

0 голосов
/ 04 января 2015

Md5 имеет проблемы коллизий (два файла с одинаковым md5 могут по-прежнему иметь разное содержимое.)

Если вы выполняете хэш SHA-1 для каждого файла и сравниваете хэши, только файлы с одинаковым содержимым будут иметь одинаковый хеш. Период.

Это также помогает, игнорируя, имеют ли они разные имена, даты изменения и т. Д.

Некоторые люди делают все возможное и используют sha-256, но это действительно не нужно. Большинство коммерческих устройств дедупликации используют SHA-1 (также называемый SHA-160).

Если вы используете SHA-1 для сравнения файлов, вам больше ничего не нужно.

Я знаю это, потому что я работал с различными системами дедупликации и поставщиками в течение ряда лет, и я также написал пример системы дедупликации.

...