Загрузка веб-страницы и всех ее файлов ресурсов в Python - PullRequest
9 голосов
/ 10 мая 2009

Я хочу иметь возможность загружать страницу и все связанные с ней ресурсы (изображения, таблицы стилей, файлы сценариев и т. Д.), Используя Python. Я (в некоторой степени) знаком с urllib2 и знаю, как загружать отдельные URL-адреса, но прежде чем я начну взламывать BeautifulSoup + urllib2, я хотел убедиться, что Python-эквивалента, эквивалентного "wget ​​- page-Requisites *, не было 1001 *http://www.google.com".

В частности, я заинтересован в сборе статистической информации о том, сколько времени занимает загрузка всей веб-страницы, включая все ресурсы.

Спасибо Mark

Ответы [ 2 ]

3 голосов
/ 10 мая 2009

Websucker? Смотри http://effbot.org/zone/websucker.htm

2 голосов
/ 15 мая 2010

websucker.py не импортирует ссылки CSS. HTTrack.com - это не python, это C / C ++, но это хорошая и удобная утилита для загрузки сайта для просмотра в автономном режиме.

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker не анализирует css "@import url"

Guido> Это пример кода, который не поддерживается и не поддерживается. Не стесняйтесь отправить патч!

...