Как работает хеширование всего содержимого веб-страницы? - PullRequest
5 голосов
/ 30 апреля 2011

Я иногда слышал esp в контексте поиска информации, поисковых систем, сканеров и т. Д., Что мы можем обнаружить дубликаты страниц, хэшируя содержимое страницы. Какие хэш-функции могут хэшировать всю веб-страницу (как минимум, 2 пейджера), чтобы 2 копии имели одинаковое значение хеш-вывода? Каков размер типичного значения хэша?

Могут ли такие хеш-функции поместить 2 одинаковые веб-страницы с небольшими опечатками и т. Д. В одно и то же ведро?

Спасибо

Ответы [ 2 ]

8 голосов
/ 30 апреля 2011

Любая хеш-функция с двумя входами x и y st x = y по определению будет возвращать одно и то же значение дляих.Но если вы хотите правильно выполнить обнаружение дубликатов, вам потребуется:

  • криптографически сильная хеш-функция, такая как MD5, SHA-1 или SHA-512, которая практически никогда не отобразит дваразные страницы к одному и тому же значению, так что вы можете предположить, что одинаковое значение хеш-функции означает равный ввод, или
  • a локально-чувствительная хеш-функция , если вы хотите обнаружить почти дубликаты.

Какой из них использовать, действительно зависит от ваших потребностей;криптографические хэши бесполезны при обнаружении почти дубликатов, так как они предназначены для отображения почти дубликатов на очень разные значения.

1 голос
/ 30 апреля 2011

Я думаю, вы ищете нечеткое хеширование , где хэшируются только части документа, а не весь документ сразу.

...