Question

Я иногда слышал esp в контексте поиска информации, поисковых систем, сканеров и т. Д., Что мы можем обнаружить дубликаты страниц, хэшируя содержимое страницы. Какие хэш-функции могут хэшировать всю веб-страницу (как минимум, 2 пейджера), чтобы 2 копии имели одинаковое значение хеш-вывода? Каков размер типичного значения хэша?

Могут ли такие хеш-функции поместить 2 одинаковые веб-страницы с небольшими опечатками и т. Д. В одно и то же ведро?

Спасибо

Fred Foo · Answer 1 · 30 апреля 2011

Любая хеш-функция с двумя входами x и y st x = y по определению будет возвращать одно и то же значение дляих.Но если вы хотите правильно выполнить обнаружение дубликатов, вам потребуется:

криптографически сильная хеш-функция, такая как MD5, SHA-1 или SHA-512, которая практически никогда не отобразит дваразные страницы к одному и тому же значению, так что вы можете предположить, что одинаковое значение хеш-функции означает равный ввод, или
a локально-чувствительная хеш-функция , если вы хотите обнаружить почти дубликаты.

Какой из них использовать, действительно зависит от ваших потребностей;криптографические хэши бесполезны при обнаружении почти дубликатов, так как они предназначены для отображения почти дубликатов на очень разные значения.

Gumbo · Answer 2 · 30 апреля 2011

Я думаю, вы ищете нечеткое хеширование , где хэшируются только части документа, а не весь документ сразу.

Как работает хеширование всего содержимого веб-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как работает хеширование всего содержимого веб-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы