база данных столкновений md5? - PullRequest
0 голосов
/ 02 апреля 2011

Я пишу дедупер файловой системы.Первый проход генерирует контрольные суммы md5, а второй проход сравнивает файлы с одинаковыми контрольными суммами.

Существует ли набор строк, которые отличаются, но генерируют идентичные контрольные суммы md5, которые я могу включить в мою коллекцию тестовых примеров?1004 * Обновление: ответ mjv указывает на эти два файла, идеально подходит для моего теста.

Ответы [ 2 ]

3 голосов
/ 02 апреля 2011

Вы можете найти несколько различных файлов сертификатов X.509 с одним и тем же хешем MD5 по этому url .

Я не знаю о хранилищах дублированных файлов MD5, но вы, вероятно, можете создать свои собственные, используя исполняемые файлы и / или методы, описанные на странице Властимила Климы на Столкновение MD5

Действительно, MD5 был известен своей слабостью в отношении устойчивости к столкновениям, однако я бы не стал дисквалифицировать его для такого проекта, как ваша файловая система. Вы можете просто добавить пару дополнительных критериев (которые могут быть очень дешевыми, если говорить в вычислительном выражении), чтобы еще больше уменьшить вероятность дублирования.

В качестве альтернативы, для целей тестирования вы можете просто изменить свою логику сравнения MD5 так, чтобы она считала некоторые значения MD5 идентичными, даже если они не совпадают (скажем, если младший байт MD5 соответствует, или систематически, каждые 20 сравнений, или случайно ...). Это может быть менее болезненным, чем производство эффективных двойников MD5.

0 голосов
/ 02 апреля 2011

http://www.nsrl.nist.gov/ может быть тем, что вы хотите.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...