Я хотел отсканировать веб-страницу Википедии, но я получил следующие выходные данные:
Ошибка в исходящем HTTP-запросе java .io.IOException: Входные данные являются двоичными и неподдерживаемыми Ошибка в исходящем HTTP-запросе org .jsoup.HttpStatusException: ошибка HTTP при получении URL. Статус = 404, URL = https://en.wiktionary.org/w/index.php?title=relaciouns&action=history
:
public void crawl(String url) {
try
{
Connection connection = Jsoup.connect(url);
//userAgent("Chrome");
Document htmlDocument = connection.ignoreContentType(true).get();
Elements linksOnpage = htmlDocument.select("#bodyContent p a:not([href= '#cite_note-1'])");
for( int i = 0; i< 3 && i < linksOnpage.size() ; i++)
{
Element link = linksOnpage.get(i);
this.links.add(link.absUrl("href"));
urlTo.add(link);
}
}
catch(IOException ioe)
{
System.out.println("Error in out HTTP request " + ioe);
}
}
public List<String> getLinks(){
return this.links;
}
}