Моя задача - найти ссылки на пресс-релизы по данной ссылке. Например, http://www.apple.com/pr/.
Мой инструмент должен находить только ссылки на пресс-релизы по указанному выше URL-адресу, исключая другие рекламные ссылки, ссылки на вкладки (или любые другие), найденные на этом сайте.
Разработанная ниже программа разработана, и в результате получаются все ссылки, представленные на данной веб-странице.
Как я могу изменить приведенную ниже программу, чтобы найти только ссылки на пресс-релиз по указанному URL?
Кроме того, я хочу, чтобы программа была универсальной, чтобы она могла определять ссылки на пресс-релизы по любым URL-адресам пресс-релизов, если таковые имеются.
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.sql.*;
import org.jsoup.nodes.Document;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;
public class linksfind{
public static void main(String[] args) {
try{
URL url = new URL("http://www.apple.com/pr/");
Document document = Jsoup.parse(url, 1000); // Can also take an URL.
for (Element element : document.getElementsByTag("a")) {
System.out.println(element.attr("href"));}
}catch (Exception ex){ex.printStackTrace();}
}
}