Встроенный способ разбора любого необработанного HTML - PullRequest
0 голосов
/ 04 февраля 2012

Я начинаю писать приложение, которое должно получать содержимое мета-тегов с любой указанной HTML-страницы. Поскольку я использую .NET 2.0 для этой цели, я не могу использовать LINQ to XML или что-то современное. Итак, я попытался использовать XmlDocument класс. К сожалению, он не может работать с недействительными документами XML, которые в большинстве своем являются HTML.

Я даже не могу использовать HtmlAgilityPack, потому что пишу приложение, которое планирую продавать в будущем, поэтому оно, вероятно, не соответствует коммерческим потребностям.

Работа с XmlReader кажется слишком сложной.

Итак, как бы вы справились с этой проблемой?


РЕДАКТИРОВАНИЕ ПОЧТЫ

Еще одна причина, по которой мне лучше избегать использования HtmlAgilityPack, заключается в том, что он так огромен для добавления в мой проект. Я буду более счастлив, сохраняя проект как можно меньше.

Вы, ребята, действительно советуете мне как-нибудь использовать HtmlAgilityPack?

Ответы [ 2 ]

5 голосов
/ 04 февраля 2012

Я даже не могу использовать HtmlAgilityPack, потому что пишу приложение, которое планирую продавать в будущем, поэтому оно, вероятно, не соответствует коммерческим потребностям.

HtmlAgilityPack использует Публичную лицензию Microsoft (Ms-PL), которая позволит вам использовать ее в коммерческом продукте, она очень либеральна - см. Также «Как работает лицензия MS-PL?» и Публичная лицензия Microsoft (Ms-PL)

0 голосов
/ 04 февраля 2012
HtmlDocument doc = new System.Windows.Forms.WebBrowser().Document.OpenNew(true);
doc.Write("<HTML><BODY>This is a new HTML document.</BODY></HTML>");

См. MSDN .

Обратите внимание, что это элемент управления WebForms, у вас могут возникнуть различные проблемы при его запуске из приложения WebForms.

...