Как правило, криптографический хеш будет создавать другой хеш, если какой-либо один байт имеет другое значение, независимо от того, насколько не важен этот байт.В этом весь смысл хэша.
В зависимости от ваших точных требований, он может или не сможет подобраться достаточно близко.
Если ваши требования "выглядит ли этот контент достаточно похожим насчитаться равным "с довольно слабыми требованиями законности, тогда вы можете попытаться создать несколько стабильное текстовое представление всех ваших входных данных и вместо этого хэшировать (например, извлечь чистый текст из вашего файла doc и отбросить все форматирование и метаданные).
Если вам нужно что-то более тонкое, чем это (например, «есть ли в этом документе какие-либо видимые для пользователя изменения), тогда будет невероятно трудно точно определить, какие части нужно хэшировать, а какие нет».t, что означает, что вы поймете неправильно, что может быть ужасно (или, возможно, ошибки не являются огромной проблемой в ваших требованиях?)