Веб-страница устранения проблем с искаженным содержимым - PullRequest
0 голосов
/ 15 декабря 2009

Я написал код на c #, который использует библиотеку HtmlAgilityPack для очистки страницы, расположенной по адресу: Крупнейшие в мире городские районы (Страница 2) . К сожалению, страница состоит из искаженного содержимого.

Я в тупике из-за того, как почистить эту страницу. Текущий код, который у меня есть (отображается ниже), зависает при разборе HTML:

 HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
 CityNodes = (from node in cityRecords.Descendants()
              where node.Name == "td"
              select node).ToList();

Цель состоит в том, чтобы проанализировать каждый город, указанный на странице, с каждой из точек данных; ничего более. Ищете рекомендации по изменению вышеуказанного кода или использованию другой свободно доступной библиотеки.

Спасибо!

1 Ответ

3 голосов
/ 15 декабря 2009

Запустите содержимое через HTML Tidy перед его анализом.

http://tidy.sourceforge.net/

...