Избегайте ссылок, переходящих на одну и ту же страницу - PullRequest
0 голосов
/ 13 сентября 2018

Я использую jsoup для рекурсивного сканирования веб-страницы. У меня есть такие ссылки

<a href ="#">hash</>
<a href ="#top">hashtop</>
<a href ="http://www.google.com">google</>

У меня нет проблем со ссылками, подобными третьей.Когда вы видите первое и второе, которые будут иметь навигацию внутри на той же странице. Когда я делаю документ.получить теги привязки Я получаю один и тот же родительский URL для # и parenturl # top для второго. Я не хочу получать ссылки такого рода.Могут ли некоторые дать мне знать, как избежать получения таких ссылок в jsoup

1 Ответ

0 голосов
/ 13 сентября 2018

Вы должны иметь возможность использовать следующее:

doc.select("a[href~=^[^#]")

При этом используется синтаксис селектора [attr~=regex] с регулярным выражением, которое будет соответствовать только строкам, которые не начинаются с #.

...