Рассматривали ли вы возможность использования каналов RSS / Atom? Зачем очищать контент, когда он обычно доступен для вас в формате расходных материалов? Существуют библиотеки, доступные для использования RSS практически на любом языке, о котором вы только можете подумать, и это будет в гораздо меньшей степени зависеть от разметки страницы, чем попытка очистки содержимого.
Если вы абсолютно ДОЛЖНЫ проверять содержимое, поищите в разметке микроформаты , большинство блогов (особенно блогов на основе WordPress) по умолчанию имеют это. Существуют также библиотеки и парсеры для поиска и извлечения микроформатов с веб-страниц.
Наконец, службы / приложения агрегирования, такие как Yahoo Pipes , могут выполнить эту работу за вас, не изобретая колесо.