Я использую HttpWebRequest для помещения удаленной веб-страницы в строку и хочу составить список всех ее тегов сценария (и их содержимого) для анализа.
Какой лучший способ сделать это?
Лучшим способом является использование анализатора HTML, такого как HTML Agilty Pack .
С сайта:
Это код .NETбиблиотека, позволяющая анализировать HTML-файлы «вне сети».Синтаксический анализатор очень терпим с искаженным HTML «реального мира».Объектная модель очень похожа на ту, что предлагает System.Xml, но для HTML-документов (или потоков). Примеры приложений: Исправление или генерация страницы.Вы можете исправить страницу так, как вы хотите, изменить DOM, добавить узлы, скопировать узлы, ну ... вы называете это. Веб-сканеры.Вы можете легко получить доступ к img / src или a / hrefs с помощью нескольких запросов XPATH. Веб-скребки.Например, вы можете легко скопировать любую существующую веб-страницу в RSS-канал, просто связав его с файлом XSLT.Пример этого приводится.
Это код .NETбиблиотека, позволяющая анализировать HTML-файлы «вне сети».Синтаксический анализатор очень терпим с искаженным HTML «реального мира».Объектная модель очень похожа на ту, что предлагает System.Xml, но для HTML-документов (или потоков).
Примеры приложений:
Исправление или генерация страницы.Вы можете исправить страницу так, как вы хотите, изменить DOM, добавить узлы, скопировать узлы, ну ... вы называете это.
Веб-сканеры.Вы можете легко получить доступ к img / src или a / hrefs с помощью нескольких запросов XPATH.
Веб-скребки.Например, вы можете легко скопировать любую существующую веб-страницу в RSS-канал, просто связав его с файлом XSLT.Пример этого приводится.
Используйте синтаксический анализатор XML, чтобы получить все теги сценария с их содержимым. Как этот: простой xml