извлечение только элементов с текстом (или значением) - PullRequest
0 голосов
/ 28 марта 2010

сено все. я пытаюсь преобразовать HTML в XML что означает извлечение всех элементов с текстом использование этого кода не работает, может быть, у кого-то есть ответ?

System.Xml.Linq.XElement query1 = new System.Xml.Linq.XElement("RawHTMLData",
           from q in hDoc.Descendants("TABLE")
           where q.HasElements 
           select new System.Xml.Linq.XElement("TABLE" + (++i).ToString(),
           from j in q.Elements("TR")
           where j.HasElements && j.Descendants("div") != null
           select new System.Xml.Linq.XElement("Row",
           from hh in j.Descendants("div")
           where tt => j.Descendants("div").Contains(hh.Value) 
           select(TT(hh)))));

Ответы [ 3 ]

0 голосов
/ 29 марта 2010

Не уверен, что это будет работать для вас, но вы можете посмотреть на использование стороннего инструмента, такого как HTML Tidy для преобразования из HTML в XHTML. Тогда вы можете рассматривать ваш HTML как XML. Здесь - ссылка на пост, обсуждающий это.

0 голосов
/ 20 марта 2011

Я думаю, вы должны использовать HTML Agility Pack , он мне очень помог! :)

Старый проект Страница: http://htmlagilitypack.codeplex.com/

0 голосов
/ 28 марта 2010

Вы не можете использовать Linq to Xml для анализа HTML, потому что html может быть недействительным как xml.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...