Существуют проекты, специально предназначенные для фильтрации «шума» на данной странице. Как правило, это делается путем предоставления алгоритму нескольких примеров страниц данного типа, и он может посмотреть, какие части между ними не меняются. При этом вам придется дать алгоритму несколько примеров страниц / постов каждого блога , которые вы хотите проанализировать. Обычно это хорошо работает, когда у вас есть небольшой определенный набор сайтов, которые вы будете сканировать (например, новостные сайты). Алгоритм в основном определяет шаблон, который они используют в HTML, и выделяет интересную часть. Здесь нет магии, она жесткая и несовершенная.
Отличный пример этого алогрита можно найти в исходном коде EveryBlock.com, который был только с открытым исходным кодом. Перейдите на everyblock.com / code , загрузите пакет "ebdata" и посмотрите на модуль "templatemaker".
И я не хочу утверждать очевидное, но не задумывались ли вы только об использовании RSS из обсуждаемых блогов? Обычно поля содержат всю запись блога, заголовок и другую мета-информацию вместе с ними. Использование RSS будет намного проще, чем предыдущее решение, о котором я говорил.