Сохранить HTML-страницу + изменить все ссылки, чтобы указать в нужном месте - PullRequest
0 голосов
/ 02 июня 2009

Вы, вероятно, знаете, что в IE есть такая вещь, где вы можете сохранить веб-страницу, и он автоматически загрузит html-файл и все файлы image / css / js, которые использует html-файл.

Теперь есть одна проблема с этим - ссылки в html-файле не изменены. Поэтому, если я скачаю html-страницу example.com, на которой есть страница, которую я скачал с помощью IE, будет иметь ссылку на C: \ Documents and Settings ... (путь к папке что файл HTML находится в).

Есть ли библиотека Python, которая загрузит мне html-страницу со всем ее содержимым (images / js / css)? Если да, есть ли библиотека, которая также изменит ссылки для меня?

Спасибо !!

Ответы [ 2 ]

8 голосов
/ 02 июня 2009

Поскольку вы упоминаете IE конкретно, я не уверен, будет ли это вам полезно, но в linux самый простой способ полностью отразить сайт - использовать команду wget.

wget --mirror --convert-links -w 1 http://www.example.com

Запустите man wget, если вам нужно больше опций.

0 голосов
/ 15 декабря 2015

Я написал инструмент для сохранения веб-страниц в одном отдельном html-файле, и ссылки указаны в том же месте, как и должно быть.

https://github.com/zTrix/webpage2html

...