Это может быть хорошим местом для использования метрики расстояния Левенштейна , которая количественно определяет объем редактирования, необходимый для преобразования одной последовательности в другую.
Недостаток этого подхода заключается в том, что вам нужно сохранить полный текст каждой страницы, чтобы вы могли сравнить их позже. С другой стороны, при использовании подхода, основанного на хэше, вы просто сохраняете какое-то небольшое вычисленное значение и не требует предыдущего полного текста для сравнения.
Вы также можете попробовать какой-то гибридный подход - пусть алгоритм хеширования сообщит вам, что были внесены какие-либо изменения, и используйте его как триггер для извлечения архивной копии документа для более тщательного (Левенштейна) сравнения.