Без глубокого знания структуры страниц, которые вы пытаетесь сравнить, это может быть очень сложно. То есть, как машина должна сообщать, что страница с парой разных картинок одинакова - если это новостной сайт с рекламой, то он должен быть таким же, но если это портфолио фотографа, то оно определенно другое.
Если вы знаете структуру страницы, то я бы вручную выбрал части страницы (используя идентификаторы, селекторы CSS, XPath и т. Д.) Для сравнения. Например, сравнивайте только дивизии #content
между обновлениями страниц. Оттуда вам, возможно, понадобится добавить уровень допуска к сравнению за символом.
Есть сервис, который делает подобное на самом деле. Он называется Rsspect (написанный Райаном Нортом из Qwantz Fame), который будет обнаруживать изменения на любом веб-сайте и создавать из него RSS-канал, даже если вы не контролируете страницу.