Как поисковые системы находят дубликаты контента сайта - PullRequest
1 голос
/ 17 сентября 2010

Хотелось бы узнать, как поисковые системы обнаруживают, что контент на сайте является дублирующим?

А также как они определяют, что оно может быть продублировано, используют ли они какую-то конкретную технику или какую-либо метку для нее?

Пожалуйста, предоставьте мне предложение.

1 Ответ

0 голосов
/ 06 мая 2011

Я не уверен, как это делают крупные поисковые системы, но одна из техник, которую я использовал, - это мини-контент с n-граммами контента. Мы сделали это для сканера, где мы нашли много неработающих сайтов, которые ссылаются на одну и ту же страницу с бесконечным количеством уникальных URL. Нам нужен был быстрый способ обнаружения похожих страниц из очень больших, чтобы мы могли затем применять более дорогие проверки дублированного контента.

http://en.wikipedia.org/wiki/MinHash

Редактировать: Вот еще несколько ссылок, включая статью из Google

http://knol.google.com/k/simple-simhashing#

http://infolab.stanford.edu/~manku/papers/07www-duplicates.pdf

...