Я использую хэш MD5 для идентификации файлов с неизвестным происхождением . Злоумышленников здесь нет, поэтому мне все равно, что MD5 был сломан, и можно намеренно генерировать столкновения.
Моя проблема в том, что мне нужно обеспечить ведение журнала, чтобы легче было диагностировать различные проблемы. Если я записываю каждый хеш как шестнадцатеричную строку, это слишком длинно, неудобно и выглядит некрасиво, поэтому я хотел бы сократить строку хеша.
Теперь я знаю, что просто взять небольшую часть GUID - очень плохая идея - GUID разработаны так, чтобы быть уникальными, но часть их не является.
То же самое относится и к MD5 - могу ли я взять, скажем, первые 4 байта MD5 и предположить, что вероятность столкновения увеличивается только из-за уменьшенного количества байтов по сравнению с исходным хешем?