Получение исходного кода HTML с помощью Jsoup защищенного паролем веб-сайта - PullRequest
2 голосов
/ 30 декабря 2011

Как видно из названия, я пытаюсь использовать Jsoup, а именно метод

String html = Jsoup.connect(page.getUrl()).get().html(); 

Сайт защищен именем пользователя и паролем, и у меня есть учетные данные для входа, но если я пытаюсь получить источник страницы, URL-адрес перенаправляет на страницу «Пожалуйста, войдите». Я не являюсь владельцем сайта (не имею прямого доступа к базе данных). Кроме того, я не знаю http или Javascript. В упражнении пользователь будет переходить в веб-просмотре и входить на этот веб-сайт, и как только они войдут в систему, я получу URL и попытаюсь получить источник (используя описанный выше метод).

Таким образом, я могу успешно получить источник с помощью Jsoup, но URL перенаправляет на страницу входа.

Заранее спасибо.

1 Ответ

2 голосов
/ 30 декабря 2011

Вы должны войти на сайт, используя свой код Java. Используйте действующий заголовок http [аддон firefox], чтобы просмотреть все заголовки http и попробуйте отправить эти заголовки, используя ваш код Java, чтобы веб-сайт решил, что веб-браузер пытается подключиться к нему.

Короче, попытайтесь эмулировать поведение и действия браузера, используя ваш код Java.

Вы можете войти, используя Jsoup, используя следующий код:

Document doc = Jsoup.connect("http://www.example.com/login.php")
.data("username", "myUsername")
.data("password", "myPassword")
.post();

, а затем попробуйте прочитать HTML страницы

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...