Я хотел бы получить все текстовые узлы документа, но только те, которые НЕ являются частью гиперссылки.
Тестовый образец:
Hello <a class='foobar' href='foo.html'>foo</a>World Hello foo World
Результирующие текстовые узлы должны включать текстовый узел с Hello foo World, но не гиперссылку.
Я пытался "//*[not(@href)]/text()"
, но это не похоже на работу.
UPDATE
Как объясняет мой ответ ниже (надеюсь), моя проблема заключалась в том, что запрос искал узлы внутри корневого узла, но не сам корневой узел. Мой ответ ниже.
Эндрю предложил другой подход, который, вероятно, более ясен в отношении намерений.