Очевидно, что это невозможно отличить только по URL.
Вы можете получить содержимое и сравнить его, но тогда я думаю, что вам придется использовать умный критерий, чтобы решить, когда две страницы одинаковы - скажем, например, что обе указывают на одну и ту же статью, но случайная реклама бывает другой, или связанные статьи меняются в зависимости от других факторов.
Создайте свою программу таким образом, чтобы критерий соответствия страниц легко заменялся, даже динамически, и попробуйте, пока не найдете тот, который не выходит из строя - например, для газетной страницы вы можете попытаться найти заголовки.