Я строю поисковик. Как удалить дубликаты из результатов поиска? - PullRequest
0 голосов
/ 13 января 2010

Когда я что-то ищу, я получаю контент с одинаковым текстом и заголовком. Конечно, всегда есть оригинал (куда другие копируют / пиявку)

Если у вас есть опыт поиска и сканирования ... как вы порекомендуете мне удалить эти дубликаты? (в очень выполнимой и эффективной манере)

Ответы [ 2 ]

1 голос
/ 13 января 2010

Для меня это звучит как вопрос программирования.

Если у вас есть четкое представление о том, что представляют собой украденные и оригинальные компоненты этих страниц, и эти различия достаточно общие, чтобы вы могли написать фильтр для их разделения, тогда сделайте это, хешируйте «украденный» контент, а затем Вы должны быть в состоянии сравнить хэши, чтобы определить, совпадают ли две страницы.

Я полагаю, что воры веб-страниц могут пойти на какую-то дальнейшую запутывание кода, чтобы запутать вас, включая изменение пробела, поэтому вы можете захотеть нормализовать html перед хэшированием, например, удалить любой лишний пробел, заставив все атрибуты использовать " цитаты и т. д.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...