Загрузка HTML-страницы как XML - PullRequest
0 голосов
/ 02 марта 2010

Я использую это для загрузки HTML-страницы по XML

Dim xmlDoc As New XmlDocument()
xmlDoc.Load(Server.MapPath("index.htm"))

или

Dim xmldoc As XDocument
xmldoc = XDocument.Load(Server.MapPath("index.htm"))

но я получил несколько ошибок, таких как:

  • Expecting an internal subset or the end of the DOCTYPE declaration. Line 2, position 14;
  • '>' is an unexpected token. The expected token is '"' or '''. Line 1, position 62;
  • Expecting an internal subset or the end of the DOCTYPE declaration. Line 5, position 20.

Все эти ошибки дошли до меня, когда я решаю одну, появляется другая.

Я спрашиваю, я использую идеальный способ загрузить этот файл или есть другой способ для этого?

1 Ответ

6 голосов
/ 02 марта 2010

Используйте HTML Agility Pack для разбора документов HTML.

Это библиотека .NET, которая анализирует HTML-файлы. Синтаксический анализатор очень терпим с искаженным HTML «реального мира». Объектная модель очень похожа на System.Xml.XmlDocument, но для документов HTML. Он поддерживает XPath и XSLT.

Dim htmlDoc As New HtmlDocument()
htmlDoc.Load(Server.MapPath("index.htm"))
...