Лучшая практика для анализа HTML (не XML) в XElement? - PullRequest
0 голосов
/ 14 января 2010

У меня есть этот код:

var url = textBox1.Text;
WebClient wc = new WebClient();

var page= wc.DownloadString(url);
XElement doc = XElement.Parse(page);

Сбой, за исключением непредвиденных символов. Очевидно, что HTML, который я пытаюсь разобрать таким тупым способом, не является строгим xml. Какой следующий самый простой способ проанализировать произвольный HTML-код для чего-то IQueriable?

Что я на самом деле хочу, так это взять таблицу внутри и пролистать ссылки. Затем проанализируйте их самостоятельно с помощью LINQ.

Ответы [ 2 ]

2 голосов
/ 15 января 2010

Посмотрите на пакет Agility для HTML:
http://www.codeplex.com/htmlagilitypack

0 голосов
/ 14 января 2010

Лучший способ, который я могу придумать, - это искать теги и анализировать все внутри, так же как и теги, содержащие ссылки на страницы. Надеюсь, что сужение до этого должно сделать ручной анализатор для записи.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...