Удаление всех HTML-тегов с помощью Html Agility Pack - PullRequest
17 голосов
/ 29 июня 2010

У меня есть HTML-строка, подобная этой:

<html><body><p>foo <a href='http://www.example.com'>bar</a> baz</p></body></html>

Я хочу удалить все HTML-теги, чтобы полученная строка стала:

foo bar baz

Из другого поста здесь в SO, я придумал эту функцию (которая использует Html Agility Pack):

  Public Shared Function stripTags(ByVal html As String) As String
    Dim plain As String = String.Empty
    Dim htmldoc As New HtmlAgilityPack.HtmlDocument

    Dim invalidNodes As HtmlAgilityPack.HtmlNodeCollection = htmldoc.DocumentNode.SelectNodes("//html|//body|//p|//a")

    If Not htmldoc Is Nothing Then
      For Each node In invalidNodes
        node.ParentNode.RemoveChild(node, True)
    End If

    Return htmldoc.DocumentNode.WriteContentTo
  End Function

К сожалению, это не возвращает того, что я ожидаю, вместо этого оно дает:


Пожалуйста, где я ошибаюсь - и это лучший подход?

С уважением и счастливого кодирования!

ОБНОВЛЕНИЕ: ответом ниже я придумал эту функцию, может быть полезным для других:

  Public Shared Function stripTags(ByVal html As String) As String
    Dim htmldoc As New HtmlAgilityPack.HtmlDocument
    htmldoc.LoadHtml(html.Replace("</p>", "</p>" & New String(Environment.NewLine, 2)).Replace("<br/>", Environment.NewLine))
    Return htmldoc.DocumentNode.InnerText
  End Function

Ответы [ 5 ]

32 голосов
/ 29 июня 2010

Почему бы просто не вернуть htmldoc.DocumentNode.InnerText вместо удаления всех нетекстовых узлов?Это должно дать вам то, что вы хотите.

2 голосов
/ 29 августа 2010

Удаляет теги и свойства, не найденные в белом списке.

Public NotInheritable Class HtmlSanitizer
    Private Sub New()
    End Sub
    Private Shared ReadOnly Whitelist As IDictionary(Of String, String())
    Private Shared DeletableNodesXpath As New List(Of String)()

    Shared Sub New()
        Whitelist = New Dictionary(Of String, String())() From { _
            {"a", New () {"href"}}, _
            {"strong", Nothing}, _
            {"em", Nothing}, _
            {"blockquote", Nothing}, _
            {"b", Nothing}, _
            {"p", Nothing}, _
            {"ul", Nothing}, _
            {"ol", Nothing}, _
            {"li", Nothing}, _
            {"div", New () {"align"}}, _
            {"strike", Nothing}, _
            {"u", Nothing}, _
            {"sub", Nothing}, _
            {"sup", Nothing}, _
            {"table", Nothing}, _
            {"tr", Nothing}, _
            {"td", Nothing}, _
            {"th", Nothing} _
    End Sub

    Public Shared Function Sanitize(input As String) As String
        If input.Trim().Length < 1 Then
            Return String.Empty
        End If
        Dim htmlDocument = New HtmlDocument()

        Dim xPath As String = HtmlSanitizer.CreateXPath()

        Return StripHtml(htmlDocument.DocumentNode.WriteTo().Trim(), xPath)
    End Function

    Private Shared Sub SanitizeChildren(parentNode As HtmlNode)
        For i As Integer = parentNode.ChildNodes.Count - 1 To 0 Step -1
    End Sub

    Private Shared Sub SanitizeNode(node As HtmlNode)
        If node.NodeType = HtmlNodeType.Element Then
            If Not Whitelist.ContainsKey(node.Name) Then
                If Not DeletableNodesXpath.Contains(node.Name) Then
                    node.Name = "removeableNode"
                End If
                If node.HasChildNodes Then
                End If

            End If

            If node.HasAttributes Then
                For i As Integer = node.Attributes.Count - 1 To 0 Step -1
                    Dim currentAttribute As HtmlAttribute = node.Attributes(i)
                    Dim allowedAttributes As String() = Whitelist(node.Name)
                    If allowedAttributes IsNot Nothing Then
                        If Not allowedAttributes.Contains(currentAttribute.Name) Then
                        End If
                    End If
            End If
        End If

        If node.HasChildNodes Then
        End If
    End Sub

    Private Shared Function StripHtml(html As String, xPath As String) As String
        Dim htmlDoc As New HtmlDocument()
        If xPath.Length > 0 Then
            Dim invalidNodes As HtmlNodeCollection = htmlDoc.DocumentNode.SelectNodes(xPath)
            For Each node As HtmlNode In invalidNodes
                node.ParentNode.RemoveChild(node, True)
        End If
        Return htmlDoc.DocumentNode.WriteContentTo()

    End Function

    Private Shared Function CreateXPath() As String
        Dim _xPath As String = String.Empty
        For i As Integer = 0 To DeletableNodesXpath.Count - 1
            If i IsNot DeletableNodesXpath.Count - 1 Then
                _xPath += String.Format("//{0}|", DeletableNodesXpath(i).ToString())
                _xPath += String.Format("//{0}", DeletableNodesXpath(i).ToString())
            End If
        Return _xPath
    End Function
End Class
1 голос
/ 08 февраля 2011

Кажется, вы предполагаете, что ForEach пересекает документ от начала до конца ... если вы хотите убедиться, что вы это делаете, используйте обычный цикл for. Вы даже не можете быть уверены, что узлы выбираются в том порядке, в котором вы ожидаете с помощью селектора xpath, но в этом случае вы можете быть правы.

С уважением, Brunis

0 голосов
/ 05 мая 2014

отредактируйте несколько строк ниже, и вы получите то, что хотите ..

Private Shared Function StripHtml(html As String, xPath As String) As String
    Dim htmlDoc As New HtmlAgilityPack.HtmlDocument()
    If xPath.Length > 0 Then
        Dim invalidNodes As HtmlNodeCollection = htmlDoc.DocumentNode.SelectNodes(xPath)

        '------- edit this line -------------------
        'For Each node As HtmlNode In invalidNodes
        'node.ParentNode.RemoveChild(node, True)
        ' result-> bazbarfoo

        '------- modify line ----------------------
        For i = invalidNodes.Count - 1 To 0 Step -1
            Dim Node As HtmlNode = invalidNodes.Item(i)
            Node.ParentNode.RemoveChild(Node, True)
        ' result-> foo bar baz
    End If
    Return htmlDoc.DocumentNode.WriteContentTo()

End Function
0 голосов
/ 29 июня 2010

Вы можете использовать следующий код.

public string RemoveHTMLTags(string source)
     string expn = "<.*?>";
     return Regex.Replace(source, expn, string.Empty);