Я иногда слышал esp в контексте поиска информации, поисковых систем, сканеров и т. Д., Что мы можем обнаружить дубликаты страниц, хэшируя содержимое страницы. Какие хэш-функции могут хэшировать всю веб-страницу (как минимум, 2 пейджера), чтобы 2 копии имели одинаковое значение хеш-вывода? Каков размер типичного значения хэша?
Могут ли такие хеш-функции поместить 2 одинаковые веб-страницы с небольшими опечатками и т. Д. В одно и то же ведро?
Спасибо