Question

Мое требование - получать новостной контент с разных новостных сайтов ... примерно ... 250. так что новостной контент находится где-то в теле, я могу перейти к первому абзацу о том, где когда-либо новостной контент основан на Google Snippets / Metainfo. но чтобы получить другие абзацы новостного контента, я пытаюсь пройти вверх по дереву HTML, пока не найду раздел или тело таблицы ... но из-за этого я получаю какой-то нежелательный текст, т. е. не связанный с новостью. так что я узнал ... все соответствующие новости на большинстве веб-страниц оформлены или отформатированы аналогичным образом. Так есть ли способ, которым я могу захватить все стили, происходящие в первом абзаце, а затем я могу отфильтровать нежелательный текст, используя эту форматирующую информацию.

Я использую пакет agility HTML и xpath для своих требований. Спасибо.

Simon Mourier · Answer 1 · 28 февраля 2011

Вам может понравиться мой ответ на следующий вопрос о SO: Расширенное использование HTML Agility Pack , похоже, оно несколько связано с вашим.

Внутри самого внутреннего тега.Как сделать все форматирующие операции эффективными над текстом?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Внутри самого внутреннего тега.Как сделать все форматирующие операции эффективными над текстом?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы