Используя C #, как мне получить список / массив всех тегов скрипта (и их содержимого) на веб-странице? - PullRequest
0 голосов
/ 22 июля 2010

Я использую HttpWebRequest для помещения удаленной веб-страницы в строку и хочу составить список всех ее тегов сценария (и их содержимого) для анализа.

Какой лучший способ сделать это?

Ответы [ 2 ]

2 голосов
/ 22 июля 2010

Лучшим способом является использование анализатора HTML, такого как HTML Agilty Pack .

С сайта:

Это код .NETбиблиотека, позволяющая анализировать HTML-файлы «вне сети».Синтаксический анализатор очень терпим с искаженным HTML «реального мира».Объектная модель очень похожа на ту, что предлагает System.Xml, но для HTML-документов (или потоков).

Примеры приложений:

  • Исправление или генерация страницы.Вы можете исправить страницу так, как вы хотите, изменить DOM, добавить узлы, скопировать узлы, ну ... вы называете это.

  • Веб-сканеры.Вы можете легко получить доступ к img / src или a / hrefs с помощью нескольких запросов XPATH.

  • Веб-скребки.Например, вы можете легко скопировать любую существующую веб-страницу в RSS-канал, просто связав его с файлом XSLT.Пример этого приводится.

0 голосов
/ 22 июля 2010

Используйте синтаксический анализатор XML, чтобы получить все теги сценария с их содержимым. Как этот: простой xml

...