восстановление полной веб-страницы с использованием httpclient - PullRequest
0 голосов
/ 22 января 2010

Я новичок в java.i возникла проблема, мне нужно сохранить полную веб-страницу (со всем ее содержимым, например изображения, CSS, Javascript и т. Д.), Например, как мы можем сделать с помощью опции Сохранить как -> Полная веб-страница с HttpClient lib.plese покажет мне, как это сделать.

Ответы [ 3 ]

0 голосов
/ 22 января 2010

Вы должны написать приложение, которое извлекает html-файл, анализирует его и извлекает все ссылки, а затем извлекает все файлы, найденные при разборе.

0 голосов
/ 22 января 2010

Это не так просто, потому что некоторые пути к файлам CSS / JS / Images могут быть «скрыты». Просто рассмотрите следующий пример:

<script type="...">
   document.write("&bla;script" + " type='...' src='" + blahBlah() + "'&bla;" + "&bla;/script&bla;");
</script>

Тем не менее, выбор источника страницы, анализ в поиске URL-адресов и загрузка найденных URL-адресов - это практически все, что вам, вероятно, понадобится.

0 голосов
/ 22 января 2010

Вы можете попробовать lib curl java http://curl.haxx.se/libcurl/java/

И вы можете обратиться к этой дискуссии также локон-эквивалент в-Явы

...