Вы настраивали экстрактор текста? например,
# text extraction for JSoupParserBolt
textextractor.include.pattern:
- DIV[id="maincontent"]
- DIV[itemprop="articleBody"]
- ARTICLE
textextractor.exclude.tags:
- STYLE
- SCRIPT
Это ограничит текст указанием c элементов, если они найдены, и / или удалит те, которые указаны в исключении.
Большинство новостных сайтов будут использовать какую-либо форму тегов для отметьте основное содержимое.
Пример, который вы дали как элемент , для которого вы можете добавить шаблон.
Существуют различные библиотеки удаления шаблонов, которые вы можете встроить в ParseFilter но их точность сильно различается.