Проблемы со сканированием: ошибка в HTTP-запросе организации .jsoup .HttpStatusExcepti: ошибка HTTP при получении URL-адреса 404 - PullRequest
0 голосов
/ 18 апреля 2020

Я хотел отсканировать веб-страницу Википедии, но я получил следующие выходные данные:

Ошибка в исходящем HTTP-запросе java .io.IOException: Входные данные являются двоичными и неподдерживаемыми Ошибка в исходящем HTTP-запросе org .jsoup.HttpStatusException: ошибка HTTP при получении URL. Статус = 404, URL = https://en.wiktionary.org/w/index.php?title=relaciouns&action=history

:

public void crawl(String url) {

        try
        {
            Connection connection = Jsoup.connect(url);
            //userAgent("Chrome");
            Document htmlDocument = connection.ignoreContentType(true).get();
            Elements linksOnpage = htmlDocument.select("#bodyContent p a:not([href= '#cite_note-1'])");

            for( int i = 0; i< 3 && i < linksOnpage.size() ; i++)
            {
                Element link = linksOnpage.get(i);
                this.links.add(link.absUrl("href"));
                urlTo.add(link);
            }
        }
        catch(IOException ioe)
        {
            System.out.println("Error in out HTTP request " + ioe);
        }
    }
    public List<String> getLinks(){
        return this.links;
    }
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...