C # HTMLAgilityPack HTML в текст - ошибки разбора - PullRequest
6 голосов
/ 27 сентября 2010

Мне нужно извлечь текст из файла HTML, используя C #.Я пытаюсь использовать HTMLAgilityPack, но вижу некоторые ошибки синтаксического анализа (теги не закрыты).Я использую эти две опции:

        htmlDoc.OptionFixNestedTags = true;
        htmlDoc.OptionAutoCloseOnEnd = true;

Есть ли какая-либо опция типа «Fix all».Я не забочусь об ошибках, я просто хочу содержание или закрыть.

1 Ответ

4 голосов
/ 27 сентября 2010

Возможно, это обходной путь, но как только мне пришлось извлечь текст из HTML, я использовал регулярное выражение:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");
...