Я попытался понять несколько примеров, в том числе вопросы здесь, поэтому я прошу прощения, если это кажется мне дубликатом, но я не могу найти выражение RegularExpression, которое я могу понять.
У меня есть некоторый HTML-код для анализа с использованием синтаксического анализатора XML - но я хочу удалить из этого содержимого теги , так как остальное достаточно для обычного синтаксического анализа XML.
Теги до должны быть удалены и их содержимое, чтобы внешний HTML не затрагивался теги и т.д.
Это раздел, включающий заголовок HTML, который я хочу удалить для справки:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" >
<html>
<head>
<link rel="stylesheet" type="text/css" href="/style/stylesheet.css" />
<meta name="description" content="Information" />
<base target="_top">
</head>
<body>
<!-- Body Here -->
</body>
</html>
Мне также нужно удалить DocType, если это можно сделать с помощью RegEx, тогда это было бы здорово. Голова всегда одна и та же - я хочу удалить только от до включительно и, если возможно, удалить также DOCTYPE из текста.
Также это необходимо для работы в Silverlight и использования System.Text.RegularExpressions или аналогичного для работы.