HtmlUnit для просмотра источника - PullRequest
11 голосов
/ 13 мая 2011

HtmlUnit для Java - это здорово, но я не смог понять, как просмотреть полный исходный код или вернуть исходный веб-сайт в виде строки. кто-нибудь может мне помочь с этим?

Я знаю, что читатели будут читать сайт, но теперь я просто хочу вернуть источник в строку.

HtmlPage mySite = webClient.getPage("http://mysite.com");

Спасибо!

Ответы [ 3 ]

15 голосов
/ 13 мая 2011

При просмотре API я подумаю:

mySite.getWebResponse().getContentAsString();
14 голосов
/ 13 мая 2011
String pageSource = myPage.asXml();

Получит полный исходный текст HTML веб-страницы.

String pageText = myPage.asText();

Получит весь видимый текст на странице, включая разрывы строк / пробелы.Это было бы то же самое, если бы вы были на странице в вашем браузере и Ctrl+A затем Ctrl+V в переменную.

2 голосов
/ 13 мая 2011

вы пробовали mySite.asXml()? Или вы можете сделать mySite.getDocumentElement().toString()

...