Получить текст, не содержащийся в теге - PullRequest
0 голосов
/ 26 ноября 2011

Я хочу извлечь текст без тега.

HTML выглядит примерно так:

<a href="asdsd.com">hello</a>

I want this text

<strong>not this</strong>

Как мне получить этот текст?

IЯ думаю, что я могу прочитать его в строку, а затем искать части в тегах <a> и <strong>, но не знаю, как это написать.

ps Я проверил тщательно, и нет<div>, <b>, <p> или любые другие теги.Просто так и висит.

1 Ответ

0 голосов
/ 12 декабря 2011

Вы можете отфильтровать текстовые узлы, которые содержат родного брата. Если у них есть предыдущий или следующий, то вы знаете, что вам нужен узел.

Dim query = doc.DocumentNode                           _
    .DescendantNodes                                   _
    .OfType(Of HtmlTextNode)                           _
    .Where(Function(t) t.PreviousSibling IsNot Nothing _
                OrElse t.NextSibling IsNot Nothing)
...