XPath: извлечение всех URL-адресов, кроме тех, которые содержат определенное имя домена - PullRequest
0 голосов
/ 09 февраля 2019

Я пытаюсь извлечь только набор URL-адресов со страницы, но мой вывод содержит некоторые нежелательные URL-адреса, которые я хотел бы игнорировать.

Вот выражение, используемое для извлечения всех URL:

//div[contains(@id,'internal_trc_')]/div/a[2]/@href

Я пробовал это без удачи:

//div[contains(@id,'internal_trc_')]/div/a[2]/@href[not(contains(text(), 'domain.com'))]

1 Ответ

0 голосов
/ 09 февраля 2019

Изменить

@href[not(contains(text(), 'domain.com'))]

на

@href[not(contains(., 'domain.com'))]

, поскольку атрибуты не имеют дочерних узлов текстового узла, но имеют строковые значения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...