Мне нужно извлечь HTML веб-страницы
Я использую HTTPuilder в Groovy, делая следующее получить:
def http = new HTTPBuilder('http://www.google.com/search')
http.request(Method.GET) {
requestContentType = ContentType.HTML
response.success = { resp, reader ->
println "resp: " + resp
println "READER: " + reader
}
response.failure = { resp, reader ->
println "Failure"
}
}
Ответ, который я получаю, не содержит того же html-кода, который я вижу при изучении html-источника www.google.com/search. На самом деле, это не html, и он не содержит ту же информацию, которую я вижу в источнике html страницы.
Я попытался установить разные заголовки (например, headers.Accept = 'text / html, application / xhtml + xml, application / xml; q = 0,9, / ; q = 0,8', заголовки. Принять = 'text / html', установка user-agent и т. д.), но результат тот же.
Как я могу получить HTML-код www.google.com/search (или любой веб-страницы), используя http builder?