Быстрый и грязный способ, которым вы можете попробовать, - разделить источник HTML на теги HTML, а затем сравнить результирующие коллекции строк. Вы должны получить коллекцию тегов и контента, скажем:
item[n] ="<p>"
item[n+2] ="This is some content"
item[n+2] ="</p>"
Я думаю, что регулярные выражения могут сделать это на любом языке.
Некоторое содержимое, кроме тегов, будет таким же (меню и т. Д.). Я думаю, что числовое сравнение случаев должно быть достаточно. Вы можете улучшить, дав своего рода «очки», когда у вас есть тот же тег / контент в той же позиции. Вероятно, «комбо» из приличного количества коллекционных предметов может дать вам уверенность.