Question

Когда я что-то ищу, я получаю контент с одинаковым текстом и заголовком. Конечно, всегда есть оригинал (куда другие копируют / пиявку)

Если у вас есть опыт поиска и сканирования ... как вы порекомендуете мне удалить эти дубликаты? (в очень выполнимой и эффективной манере)

Alex Brown · Answer 1 · 13 января 2010

Для меня это звучит как вопрос программирования.

Если у вас есть четкое представление о том, что представляют собой украденные и оригинальные компоненты этих страниц, и эти различия достаточно общие, чтобы вы могли написать фильтр для их разделения, тогда сделайте это, хешируйте «украденный» контент, а затем Вы должны быть в состоянии сравнить хэши, чтобы определить, совпадают ли две страницы.

Я полагаю, что воры веб-страниц могут пойти на какую-то дальнейшую запутывание кода, чтобы запутать вас, включая изменение пробела, поэтому вы можете захотеть нормализовать html перед хэшированием, например, удалить любой лишний пробел, заставив все атрибуты использовать " цитаты и т. д.

Tobu · Answer 2 · 13 января 2010

Вот метод, основанный на симхаше.

Вот тот, который использует стоп-слова для обхода рекламы.

Я строю поисковик. Как удалить дубликаты из результатов поиска?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Я строю поисковик. Как удалить дубликаты из результатов поиска?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов