Для меня это звучит как вопрос программирования.
Если у вас есть четкое представление о том, что представляют собой украденные и оригинальные компоненты этих страниц, и эти различия достаточно общие, чтобы вы могли написать фильтр для их разделения, тогда сделайте это, хешируйте «украденный» контент, а затем Вы должны быть в состоянии сравнить хэши, чтобы определить, совпадают ли две страницы.
Я полагаю, что воры веб-страниц могут пойти на какую-то дальнейшую запутывание кода, чтобы запутать вас, включая изменение пробела, поэтому вы можете захотеть нормализовать html перед хэшированием, например, удалить любой лишний пробел, заставив все атрибуты использовать "
цитаты и т. д.