Существуют ли какие-либо бесплатные / открытые библиотеки c # для извлечения данных из html?
С учетом ввода ниже
<div style="..."> text part 1 </div> <div style="..."> text part 2 </div>
Я хочу вывод:
text part 1 text part 2
Да, вы можете использовать HtmlAgilityPack для анализа HTML с использованием запросов Xpath, как если бы это был XML.
вы можете использовать HtmlAgilitiPack очень хорошую библиотеку.
, а затем:
public string StripHTMLTags(string str) { StringBuilder pureText = new StringBuilder(); HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(str); foreach (HtmlNode node in doc.DocumentNode.ChildNodes) { pureText.Append(node.InnerText); } return pureText.ToString(); }