Если вы просто храните текст для индексации, вам, вероятно, нужно сделать немного больше, чем просто удалить HTML, например игнорировать стоп-слова и удалять слова короче (скажем) 3 символа. Тем не менее, простой тег и стриптизер, который я однажды написал, выглядит примерно так:
public static string StripTags(string value)
{
if (value == null)
return string.Empty;
string pattern = @"&.{1,8};";
value = Regex.Replace(value, pattern, " ");
pattern = @"<(.|\n)*?>";
return Regex.Replace(value, pattern, string.Empty);
}
Он старый, и я уверен, что его можно оптимизировать (возможно, используя скомпилированный reg-ex?). Но это работает и может помочь ...