Мне интересно, есть ли библиотека, которая позволяет вам делать что-то вроде http://tool.motoricerca.info/similarity-analyzer.phtml В результатах перечисляется что-то, называемое HTML-отпечатком, которое дает процентное значение вероятности структурного сходства двух страниц.