Я пытался найти некоторый код, который я написал для этого некоторое время назад, который я использовал. Это работало хорошо. Позвольте мне описать, что он сделал, и, надеюсь, вы сможете повторить его поведение.
- Заменить изображения альтернативным текстом или текстом заголовка.
- Заменить ссылки на "текст [ссылка]"
- Заменить вещи, которые обычно создают вертикальное пустое пространство. h1-h6, div, p, br, hr и т. д. (Я знаю, я знаю. На самом деле это могут быть встроенные элементы, но это хорошо работает.)
- Удалите остальные теги и замените их пустой строкой.
Вы можете даже расширить это, чтобы отформатировать такие вещи, как упорядоченные и неупорядоченные списки. Это действительно зависит от того, как далеко вы захотите зайти.
EDIT
Нашел код!
public static string Convert(string template)
{
template = Regex.Replace(template, "<img .*?alt=[\"']?([^\"']*)[\"']?.*?/?>", "$1"); /* Use image alt text. */
template = Regex.Replace(template, "<a .*?href=[\"']?([^\"']*)[\"']?.*?>(.*)</a>", "$2 [$1]"); /* Convert links to something useful */
template = Regex.Replace(template, "<(/p|/div|/h\\d|br)\\w?/?>", "\n"); /* Let's try to keep vertical whitespace intact. */
template = Regex.Replace(template, "<[A-Za-z/][^<>]*>", ""); /* Remove the rest of the tags. */
return template;
}