Мое требование - получать новостной контент с разных новостных сайтов ... примерно ... 250. так что новостной контент находится где-то в теле, я могу перейти к первому абзацу о том, где когда-либо новостной контент основан на Google Snippets / Metainfo. но чтобы получить другие абзацы новостного контента, я пытаюсь пройти вверх по дереву HTML, пока не найду раздел или тело таблицы ... но из-за этого я получаю какой-то нежелательный текст, т. е. не связанный с новостью. так что я узнал ... все соответствующие новости на большинстве веб-страниц оформлены или отформатированы аналогичным образом. Так есть ли способ, которым я могу захватить все стили, происходящие в первом абзаце, а затем я могу отфильтровать нежелательный текст, используя эту форматирующую информацию.
Я использую пакет agility HTML и xpath для своих требований. Спасибо.