Мое мнение таково, что это вопрос вероятности наличия уникального хеша для каждого изображения. Если вы используете только первые 5000 байтов изображения размером 300000 байтов, то два изображения, отличающиеся только своей нижней частью, вероятно, будут иметь одинаковый хэш. Это не обязательно вопрос sha1.
Вы также можете распределить свои 5000 байтов равномерно по 300000 байтов.