Алгоритм перцептивного хеширования для древовидной структуры (например, HTML / XML) - PullRequest
0 голосов
/ 30 апреля 2020

Существуют ли какие-либо хорошие подходы / примеры получения двух HTML документов (игнорируя css / js et c) и вычисления воспринимаемого га sh, как мы легко можем сделать для изображений с помощью phash / wavelet хэширование et c)? В идеале я хотел бы видеть, являются ли два HTML документа одинаковыми , игнорируя незначительные изменения стиля или структуры DOM. Идея ha sh была бы чем-то, что мы могли бы провести простым сравнением, например, на расстоянии Хэмминга. Если ничего не указано от c до HTML, есть ли какие-нибудь общие алгоритмы подобия графов, которые могут быть полезны для вдохновения?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...