Я не думаю, что есть очень чистый способ сделать это, но вот два "хакерских":
Я бы анализировал текст RSS и искал любые ссылки, выходящие из него. Конечно, там может быть несколько ссылок (некоторые на другие посты в блоге), но если вы сосредоточитесь на последней и попытаетесь придумать несколько эвристических слов для названия ссылки (то есть «больше», «прочитать полностью "и т. д.), вы должны быть в состоянии получить их много. Для большей уверенности вы можете посмотреть только те ссылки, которые указывают на исходный блог.
Более строгий метод заключается в том, чтобы вы переходили по всем ссылкам и пытались сравнить, является ли фрагмент RSS подмножеством возвращающейся страницы или если имеется значительное совпадение. Это может не помочь, когда сайт использует реальное резюме, в отличие от фрагмента полной публикации.