Java веб-соединение возвращает URL-адрес, который избежал перехода для некоторых страниц - PullRequest
0 голосов
/ 06 января 2020

Я работаю над проектом очистки веб-страниц, который сохраняет свои данные в базе данных. Когда я пытаюсь загрузить определенные страницы, в результате я получаю строки, которые экранируются как URL. Поскольку я отслеживаю изменения, один и тот же сайт загружается несколько раз. В первый раз все нормально, но после этого сайт всегда экранируется. Это происходит с одной и той же парой сайтов, но это происходит последовательно. Когда я использую условную точку останова в Eclipse, она срабатывает на этих сайтах, но перспектива отладки в Eclipse показывает мне содержимое сайта как нормальное.

Код, который я использую для загрузки, выглядит следующим образом:

public static String getHTML (String a) {

    String content = null;
    URLConnection connection = null;
    try {
      connection =  new URL(a).openConnection();
      Scanner scanner = new Scanner(connection.getInputStream(), "UTF-8");
      scanner.useDelimiter("\\Z");
      content = scanner.next();
      scanner.close();
    }catch ( Exception ex ) {
        ex.printStackTrace();
        System.out.println(a);
    }

    return(content);
}

Если кто-нибудь может указать мне, откуда это может исходить, я был бы очень благодарен.

...