Библиотека для извлечения данных из HTML-строки - PullRequest
1 голос
/ 18 декабря 2011

Существуют ли какие-либо бесплатные / открытые библиотеки c # для извлечения данных из html?

С учетом ввода ниже

<div style="...">
 text part 1
</div>
<div style="...">
 text part 2
</div>

Я хочу вывод:

text part 1 text part 2

Ответы [ 2 ]

6 голосов
/ 18 декабря 2011

Да, вы можете использовать HtmlAgilityPack для анализа HTML с использованием запросов Xpath, как если бы это был XML.

4 голосов
/ 18 декабря 2011

вы можете использовать HtmlAgilitiPack очень хорошую библиотеку.

, а затем:

public string StripHTMLTags(string str)
        {
            StringBuilder pureText = new StringBuilder();
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(str);

            foreach (HtmlNode node in doc.DocumentNode.ChildNodes)
            {
                pureText.Append(node.InnerText);
            }

            return pureText.ToString();
        }
...