Как сохранить веб-страницу программно? - PullRequest
6 голосов
/ 14 ноября 2009

Я хочу сохранить веб-страницу программно.

Я не имею в виду просто сохранить HTML. Я также хотел бы автоматически сохранять все связанные файлы (изображения, файлы CSS, возможно встроенные SWF и т. Д.) И, надеюсь, переписать ссылки для локального просмотра.

Предполагаемое использование - это приложение для создания личных закладок, в котором содержимое ссылки кэшируется в случае удаления оригинальной копии.

Ответы [ 3 ]

6 голосов
/ 14 ноября 2009

Взгляните на wget , в частности на флаг -p

−p  −−page−requisites
This option causes Wget to download all the files
that are necessary to properly display
a givenHTML  page. Thisincludes such
things as inlined images, sounds, and
referenced stylesheets.

Следующая команда:

wget -p http://<site>/1.html

Скачает page.html и все необходимые файлы.

2 голосов
/ 14 ноября 2009

В Windows: вы можете запустить IE как com-объект и извлечь все из него.

С другой стороны, вы можете взять источник Mozilla.

В Java Лобо .

Или commons-httpclient и написать много кода.

0 голосов
/ 14 ноября 2009

Вы можете попробовать формат MHTML (это то, что использует IE). http://en.wikipedia.org/wiki/MHTML

Другими словами, вы будете загружать каждый объект (изображение, CSS и т. Д.) На свой компьютер, а затем «встраивать» их через Base64 в один файл.

...