Question

У меня есть этот код:

var url = textBox1.Text;
WebClient wc = new WebClient();

var page= wc.DownloadString(url);
XElement doc = XElement.Parse(page);

Сбой, за исключением непредвиденных символов. Очевидно, что HTML, который я пытаюсь разобрать таким тупым способом, не является строгим xml. Какой следующий самый простой способ проанализировать произвольный HTML-код для чего-то IQueriable?

Что я на самом деле хочу, так это взять таблицу внутри и пролистать ссылки. Затем проанализируйте их самостоятельно с помощью LINQ.

AUSteve · Answer 1 · 15 января 2010

Посмотрите на пакет Agility для HTML:
http://www.codeplex.com/htmlagilitypack

ridecar2 · Answer 2 · 14 января 2010

Лучший способ, который я могу придумать, - это искать теги и анализировать все внутри, так же как и теги, содержащие ссылки на страницы. Надеюсь, что сужение до этого должно сделать ручной анализатор для записи.

Лучшая практика для анализа HTML (не XML) в XElement?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучшая практика для анализа HTML (не XML) в XElement?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов