Ну, это скажет вам, действительно ли они разные или вероятно одинаковые. возможно для двух файлов иметь одинаковый хеш, но на самом деле не иметь одинаковые данные ... просто очень маловероятно.
В вашей ситуации, каково влияние, если вы получаете ложный положительный результат (т.е. если вы думаете, что они одинаковы, но это не так)? MD5, вероятно, достаточно хорош, чтобы не беспокоиться о коллизиях, если они произойдут только случайно ... но если у вас на кону безопасность (или деньги), и кто-то может создать «плохой» файл с таким же хеш как "хороший" файл, на него не стоит полагаться.
Лично я, вероятно, просто прочитал бы оба файла, сравнив каждый байт - для одноразового сравнения и хеширование, и этот подход потребуют чтения всего файла, когда они равны; как указывает Даниэль в комментариях, побайтовое сравнение позволяет вам выйти раньше, как только вы увидите разницу. Сравнение размеров файлов сначала еще одна быстрая оптимизация:)
Общее преимущество хеширования имеет место, когда вы храните где-то хеш существующего файла, так что в следующий раз вы сможете просто прочитать новый файл.