Java - Как загрузить полный исходный сайт HTML - PullRequest
3 голосов
/ 24 марта 2012

Я пытаюсь загрузить ПОЛНЫЙ исходный код веб-сайта HTML в String в Java.Я пробовал несколько подходов, однако я получаю почти весь исходный код.Что еще хуже: одна из главных частей, которую я не получаю, - это часть, которая мне нужна больше всего!

Ответы [ 2 ]

5 голосов
/ 24 марта 2012
URL url = new URL("http://www.website.com");
URLConnection spoof = url.openConnection();

//Spoof the connection so we look like a web browser
spoof.setRequestProperty( "User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0;    H010818)" );
BufferedReader in = new BufferedReader(new InputStreamReader(spoof.getInputStream()));
String strLine = "";
String finalHTML = "";
//Loop through every line in the source
while ((strLine = in.readLine()) != null){
   finalHTML += strLine;
}
5 голосов
/ 24 марта 2012

Это может быть связано с тем, что искомый контент на самом деле загружается динамически, например, через ajax / javascript.

Например, веб-сайт может содержать пустой тег DIV, который будет заполнен многими вещами только послестраница загружается (через AJAX-вызов в другое место).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...