Question

Мне нужно выполнить некоторую логику на всех текстовых узлах HTMLDocument.Вот как я в настоящее время делаю это:

HTMLDocument pageContent = (HTMLDocument)_webBrowser2.Document;
IHTMLElementCollection myCol = pageContent.all;
foreach (IHTMLDOMNode myElement in myCol)
{
    foreach (IHTMLDOMNode child in (IHTMLDOMChildrenCollection)myElement.childNodes)
    {
        if (child.nodeType == 3)
        {
           //Do something with textnode!
        }
     }
 }

Так как некоторые элементы в myCol также имеют дочерние элементы, которые сами находятся в myCol, я посещаю некоторые узлы более одного раза!Должен быть какой-то лучший способ сделать это?

Steve · Answer 1 · 07 ноября 2010

Лучше всего перебирать дочерние узлы (прямые потомки) внутри рекурсивной функции, начиная с верхнего уровня, что-то вроде:

HtmlElementCollection collection = pageContent.GetElementsByTagName("HTML");
IHTMLDOMNode htmlNode = (IHTMLDOMNode)collection[0];
ProcessChildNodes(htmlNode);

private void ProcessChildNodes(IHTMLDOMNode node)
{
    foreach (IHTMLDOMNode childNode in node.childNodes)
    {
        if (childNode.nodeType == 3)
        {
            // ...
        }
        ProcessChildNodes(childNode);
    }
}

Steve Townsend · Answer 2 · 07 ноября 2010

Вы можете получить доступ ко всем текстовым узлам за один снимок, используя XPath в HTML Agility Pack .

Я думаю, что это будет работать, как показано, но еще не пробовал.

using HtmlAgilityPack;
HtmlDocument htmlDoc = new HtmlDocument();

// filePath is a path to a file containing the html
htmlDoc.Load(filePath);
HtmlNodeCollection coll = htmlDoc.DocumentNode.SelectNodes("//text()");

foreach (HTMLNode node in coll)
{
  // do the work for a text node here
}

Как я могу получить все текстовые узлы HTMLDocument самым быстрым способом в C #?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу получить все текстовые узлы HTMLDocument самым быстрым способом в C #?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов