Вам необходимо изменить код так, чтобы проверка была не только для того, чтобы увидеть, была ли ссылка посещена до очистки, но также и для того, чтобы ссылка была внутрисайтовой ссылкой.Поэтому оператор if
должен быть изменен на:
if (visitedLinks.contains(nextUrl) || !isInSiteLink(nextUrl) {
// don't scrape
} else {
// your scraping method here
}
Затем необходимо реализовать метод.Это может выглядеть примерно так:
boolean isInSiteLink(String url) {
return (url.starts with(baseUrl) || url.startsWith("/") || url.starts with("./") || url.starts with("../"));
}
Где baseUrl
- базовый URL сайта.